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(54) Title: METHOD AND DEVICE FOR OPTIMIZING A NUCLEOTIDE SEQUENCE FOR THE PURPOSE OF EXPRESSION 
^= OF A PROTEIN 

(54) Bezeichnung: VERFAREN UND VORRICHTUNG ZUM OPTIMTEREN EINER NUCLEOTIDSEQUENZ ZUR EXPRES- 
— SION EINES PROTEINS 



(57) Abstract: The invention relates to a method for optimizing a nucleotide sequence for the purpose of expression of a protein on 
^1 the basis of the amino acid sequence of said protein. According to the inventive method, a test sequence with m optimization positions 

is determined for a defined region, in which positions the codon usage is varied. The optimum codon usage on said optimization 

positions is determined by means of a power function and one or more codons of said optimum usage are determined as the codons 
1/^ of the optimized nucleotide sequence. These steps are iterated, while the codons of the optimized nucleotide sequence determined 
^ in the preceding steps remain unchanged during the subsequent iteration steps. The invention further relates to a device for carrying 

out said method. 

^ (57) Zusammenfassung: Die Erfindung betrifft ein Verfahren zum Optimieren einer Nucleotidsequenz zur Expression eines Pro- 
^5 teins auf der Grundlage der Aminosaurensequenz des Proteins, bei welchem fiir einen bestimmten Bereich eine Testsequenz mit m 
O Optimierungspositionen festgelegt wird, auf denen die Codonbesetzung variiert wird, wobei mittels einer GUtefunktion die optimale 

Codonbesetzung auf diesen Optimierungspositionen ermittelt wird und ein oder mehrere Codons dieser optimalen Besetzung als 
Q Codons der optimierten Nucleotidsequenz festgelegt werden. Diese Schritte werden iteriert, wobei bei nachfolgenden Iterations- 

schritten die in vorangehenden Schritten festgelegten Codons der optimierten Nucleotidsequenz unverandert bleiben. Die Erfindung 
|^ betrifft weiterhin eine Vorrichtung zur Durchfuhrung dieses Verfahrens. 
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Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines 

Proteins 



Die Erfindung betrifft allgemein die Erzeugung synthetischer DNS-Sequenzen und deren 
Verwendung zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressions- 
system, zum Beispiel in einen Wirtsorganismus/eine Wirtszelle oder ein System fur eine In- 
vitro-Expression eingebracht werden, der bzw. die das entsprechende Protein exprimiert. Sie 
betrifft insbesondere Verfahren, bei denen eine synthetische Nucleotidsequenz fur das jewei- 
lige Expressionssystem, also zum Beispiel fur einen Organismus/fur eine Wirtszelle, mit Hilfe 
eines Computers optimiert wird. 

Eine Technik zur Herstellung und Synthetisierung von Proteinen ist das Klonen und Expri- 
mieren der dem Protein entsprechenden Gensequenz in heterologen Systemen, z.B. Escheri- 
chia coli oder Hefe. Naturlich vorkommende Gene sind ftir diesen Zweck allerdings haufig 
suboptimal. Da in einer DNS-Sequenz, die ein Protein exprimiert, jeweils ein Triplett von 
Basen (Codon) eine Aminosaure exprimiert, ist es moglich, eine kunstliche DNS-Sequenz zur 
Expression des gewiinschten Proteins zu synthetisieren und fur das Klonen und Exprimieren 
des Proteins zu verwenden. Ein Problem bei diesem Vorgehen besteht darin, dafi einer vorge- 
gebenen Aminosaurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als 
Degeneriertheit des genetischen Codes bezeichnet Unterschiedliche Organismen verwenden 
Codons ftir die Expression einer Aminosaure mit unterschiedlicher Haufigkeit (sogenannte 
Codon usage). In der Regel gibt es in einem gegebenen Organismus ein Codon, das uberwie- 
gend verwendet wird und ein oder mehrere Codons, welche mit vergleichsweise geringer 
Haufigkeit von dem Organismus zur Expression der entsprechenden Aminosaure verwendet 
werden. Da die synthetisierte Nucleotidsequenz in einem bestimmten Organismus verwendet 
werden soil, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus 
angepalit sein. Eine weitere wichtige GroBe ist der GC-Gehalt (Gehalt der Basen Guanin und 
Cytosin in einer Sequenz). Weitere Faktoren, welche das Expressionsergebnis beeinflussen 
kdnnen, sind DNS-Motive und Wiederholungen oder invers komplementare Wiederholungen 
in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem gegebenen Organismus 



WO 2004/059556 



-2- 



PCT/EP2003/014850 



bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht erwunscht sein kdnnen. 
Beispiete sind cis-aktive Sequenzmotive wie Spleiflstellen oder Transkriptionsterminatoren. 
Das unbeabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren 
oder ganz unterdriicken oder sogar fur den Wirtsorganismus eine toxische Wirkung haben. 
Sequenzwiederholungen konnen zu einer geringeren genetischen Stabilitat fuhren und er- 
schweren die Synthese repetitiver Abschnitte aufgrund der Gefahr von Fehlhybridisierungen. 
Invers komplementare Wiederholungen konnen zur Bildung von unerwunschten Sekundar- 
strukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene fuhren, welche 
die Transkription behindern und zu genetischer Instability fuhren, bzw. die Translationseffi- 
zienz negativ beeinflussen konnen. 

Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts opti- 
miert sein und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers 
komplementaren Sequenzwiederholungen verbundenen Probleme weitgehend vermeiden. 
Diese Erfordernisse lassen sich in der Regel jedoch nicht gleichzeitig und in optimaler Weise 
erfullen. Beispielsweise kann eine Optimierung auf die optimale Codon usage zu einer stark 
repetitiven Sequenz und einem erheblichen Abweichen von dem gewunschten GC-Gehalt 
fuhren. Es gilt daher, einen moglichst optimalen KompromiB zwischen der Erfullung der ver- 
schiedenen Erfordernisse herbeizufuhren. Die groBe Anzahl von Aminosauren in einem Pro- 
tein fiihrt jedoch zu einer kombinatorischen Explosion der Zahl der moglichen DNS- 
Sequenzen, welche - im Prinzip - das gewtinschte Protein exprimieren konnen. Aus diesem 
Grund wurden verschiedene computergestutzte Verfahren zum Ermitteln einer optimalen Co- 
donsequenz vorgeschlagen. 

P.S. Sarkar und Samir K. Brahmachari, Nucleic Acids Research 20 (1992), 5713 beschreiben 
Untersuchungen zur Rolle der Wahl der Codons bei der Bildung bestimmter raumlicher 
Strukturen einer DNS-Sequenz. Hierbei wurden alle mSglichen degenerierten Nucleotidse- 
quenzen generiert. Eine Bewertung der Sequenzen hinsichtlich des Vorhandenseins von 
strukturellen Motiven und strukturbildender Abschnitte erfolgte durch einen Computer unter 
Verwendung einer Wissensbasis. Die Verwendung einer Gutefunktion ist nicht offenbart. 

D.M. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 e43 schlSgt ein 
computergestutztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl 
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von Abschnitten unterteilt wird, ftr die jeweils eine Gutefunktion (Score) berechnet wird. In 
die Giitefunktion gehen u.a. die Codon usage, die MSglichkeit der Bildung von Haarnadel- 
strukturen und die Abweichungen von der gewiinschten Schmelztemperatur ein. Der Wert der 
Giitefunktion fur die Gesamtsequenz bestimmt sich aus der Summe der Werte der Giitefunk- 
tion fur die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird 
durch ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werden statistisch Codonpo- 
sitionen ausgewahlt, bei denen das Codon einer Ausgangssequenz durch ein statistisch aus- 
gewahltes aquivalentes Codon ersetzt wird. Gleichzeitig werden in einer Iteration auch die 
Grenzen der Abschnitte neu definiert. Auf diese Weise wird eine vollstandige Gensequenz 
statistisch generiert. 1st der Wert der Giitefunktion fur die Gesamtsequenz kleiner als die bis- 
herige Sequenz, wird die neue Sequenz beibehalten. 1st er grOBer, wird mit einer gewissen 
Wahrscheinlichkeit die neue Sequenz beibehalten, wobei diese Wahrscheinlichkeit durch eine 
Boltzmann-Statistik kontrolliert wird. Wenn sich innerhalb einer vorbestimmten Anzahl von 
Iterationen die Sequenz nicht andert, wird diese Sequenz als optimale Sequenz bewertet. 

Derartige statistische Verfahren haben den Nachteil, dafi sie stark von der Wahl der Konver- 
genzkriterien abhangen. 

Es ist die Aufgabe der Erfindung, ein alternatives Verfahren zum Optimieren einer Nucleo- 
tidsequenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Pro- 
teins zur Verfugung zu stellen, welches sich mit relativ geringem Speicherplatz und relativ 
geringer Rechenzeit auf einem Computer implementieren lafit und welches insbesondere 
Nachteile der statistischen Verfahren vermeidet. 

Erfindungsgemafi wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleo- 
tidsequenz zur Expression eines Proteins auf der Grundlage der Aminosaurensequenz des 
Proteins gelQst, welches die folgenden auf einem Computer durchgefiihrten Schritte umfaBt: 

Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden 
Aminosauren in der Proteinsequenz entsprechen, wobei n eine naturliche Zahl und 
kleiner oder gleich N, der Zahl der Aminosauren der Proteinsequenz, ist, 
Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von 
m Codons, insbesondere von m aufeinanderfolgenden Codons, entsprechen, an denen 
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die Besetzung mit einem Codon, bezogen auf die Testsequenz, optimiert werden soil, 
wobei m < n und m < N ist, 

Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testsequenz, 
indem an einer oder mehreren der m Optimierungspositionen ein Codon der ersten 
Testsequenz durch ein anderes Codon ersetzt wird, welches dieselbe Aminosaure ex- 
primiert, 

Bewerten jeder der Testsequenzen mit einer GUtefunktion und Ermitteln der hinsicht- 
lich der Gutefunktion optimalen Testsequenz, 

Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Opti- 
mierungspositionen befinden, als Ergebniscodons, welche die Codons der optimierten 
Nucleotidsequenz an den Positionen bilden, die der Position der besagten p Codons in 
der Testsequenz entspricht, wobei p eine naturliche Zahl und p < m ist, 
Iterieren der vorangehenden Schritte, wobei in jedem Iterationsschritt die Testsequenz 
an den Positionen, welche Positionen von festgelegten Ergebniscodons in der opti- 
mierten Nucleotidsequenz entsprechen, das entsprechende Ergebniscodon enthalt und 
die Optimierungspositionen von Positionen von Ergebniscodons verschieden sind. 

Gemafi der bevorzugten Ausfuhrungsform der Erfmdung werden die vorangehend genannten 
Schritte so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit 
Ergebniscodons besetzt worden sind. 

ErfindungsgemaB wird also die Sequenz nicht insgesamt, sondem sukzessiv auf Teilbereichen 
optimiert. Die in einem Iterationsschritt als optimal festgelegten p Ergebniscodons werden in 
den nachfolgenden Iterationsschritten nicht mehr verandert und vielmehr bei den jeweiligen 
Optimierungsschritten als gegeben vorausgesetzt. Vorzugsweise ist die Anzahl der Ergeb- 
niscodons, welche auf diese Weise fur die weiteren Iterationen festgelegt und als vorgegeben 
behandelt werden, kleiner als die Anzahl m der Optimierungspositionen, an denen in einem 
Iterationsschritt die Codons variiert werden. Zumindest in der Mehrzahl der Iterationsschritte, 
bei einer besonderen Ausfuhrungsform bei alien Iterationsschritten auBer dem ersten, ist wie- 
derum m kleiner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lo- 
kale Effekte auf den m variierten Positionen, sondem auch langerreichweitige Korrelationen, 
z.B. im Zusammenhang mit der Entstehung von RNA-Sekundarstrukturen, zu berucksichti- 
gen. 
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GemaB den derzeit bevorzugten Ausfiihrungsformen liegt m im Bereich von 3 bis 20, vor- 
zugsweise im Bereich von 5 bis 10. Bei dieser Wahl dieses Parameters kann die Variation der 
Codons mit einem akzeptablen Aufwand an Speicher und Rechenzeit durchgefuhrt werden 
und gleichzeitig eine gute Optimierving der Sequenz erreicht werden. 



GemaB einer Ausfuhrungsform muB m in den verschiedenen Iterationsschritten nicht gleich 
sein, sondern kann vielmehr auch in unterschiedlichen Iterationsschritten verschieden sein. Es 
kann auch vorgesehen sein, in einem Iterationsschritt die Variation der Testsequenz fur ver- 
schiedene Werte von m durchzufuhren und ggf. nur das Optimierungsergebnis fur einen Wert 
von m zu berucksichtigen, urn Einflusse der GroBe m auf das Optimierungsergebnis zu redu- 
zieren bzw. urn zu uberpriifen, ob eine VergroBerung der Zahl m zu einer Anderung des Er- 
gebnisses fuhrt. 



GemaB der bevorzugten Ausfuhrungsform sind die m Optimierungspositionen oder zumindest 
ein Teil davon zusammenhangend und bilden somit ein Variationsfenster in der Testsequenz, 
auf welchem die Codonbesetzung variiert wird. 



Die Erfindung kann insbesondere vorsehen, dafi in zwei oder mehr aufeinanderfolgenden Ite- 
rationsschritten ein Teil der m Optimierungpositionen, auf welchen die Codons variiert wer- 
den, identisch sind. Sind die m Positionen zusammenhangend, bedeutet dies, daB das Variati- 
onsfenster bei einem Iterationsschritt mit dem Variationsfenster eines vorangehenden Iterati- 
onsschrittes uberlappt. 



Die Erfindung kann vorsehen, daB in einem oder mehreren Iterationsschritten die m Optimie- 
rungspositionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen, 
welche als Teil der optimierten Nucleotidsequenz festgelegt worden sind. 



Die Erfindung kann ebenfalls vorsehen, daB in einem oder mehreren Iterationsschritten die p 
Codons, die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p auf- 
einanderfolgende Codons sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergeb- 
niscodons folgen, welche als Teil der optimierten Nucleotidsequenz in einem fruheren Schritt 
festgelegt worden sind. 
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Die Erfindung kann vorsehen, daB die Nucleotidsequenz von einem ihrer Enden her optimiert 
wird. Insbesondere kann die Erfindung vorsehen, daB in jedem Iterationsschritt die Lange der 
Testsequenz des vorherigen Iterationsschritts urn eine bestimmte Anzahl Codons, die in unter- 
schiedlichen Iterationen verschieden sein kann, vergrSBert wird, bis n = N ist. 1st n = N und 
die Zahl derjenigen Positionen, die in der Testsequenz nicht mit Ergebniscodons besetzt sind, 
kleiner oder gleich dem Wert von m, der in den vorangehenden Iterationen verwendet wurde, 
oder liegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen Itera- 
tionen, im Bereich der in Frage kommenden Werte von m, kann in dem entsprechenden Itera- 
tionsschritt p = m gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten 
Codons ist. Die als optimal aufgefundene Besetzung der Optimierungspositionen wird dann 
fiir die Ergebniscodons an diesen Optimierungspositionen iibernommen. Dies gilt insbesonde- 
re dann, wenn fiir jede mogliche Kombination von Besetzungen der Optimierungspositionen 
eine Testsequenz generiert wird. 

Es kann jedoch auch vorgesehen sein, daB der Bereich der Testsequenz innerhalb der gesam- 
ten Sequenz in einem Iterationsschritt nicht oder nicht vollstandig den Bereich einer Testse- 
quenz in einem vorherigen Iterationsschritt umfafit. Beispielsweise kann die Testsequenz 
selbst ein Fenster auf der Gesamtsequenz, z.B. ein Fenster fester Lange, bilden, das im Laufe 
der verschiedenen Iterationen auf der Gesamtsequenz verschoben wird. 

GemaB einer bevorzugten Ausfiihrungsform wird die Testsequenz nach jedem Schritt urn p 
Codons verlangert, wobei insbesondere m fur alle Iterationsschritte konstant sein kann. 

Analog zu der vorangehend beschriebenen Ausfuhrungsform der Erfindung kann auch vorge- 
sehen sein, daB die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird. 
Dies kann z.B. in der Art geschehen, daB eine anfangliche Testsequenz, welche einem Bereich 
im Inneren der zu optimierenden Nucleotidsequenz entspricht, zunachst nach einer Seite suk- 
zessiv vergroBert wird, bis das Ende der zu optimierenden Nucleotidsequenz oder ein anderer 
vorgegebener Punkt der zu optimierenden Nucleotidsequenz erreicht ist, und dann die Testse- 
quenz zu der anderen Seite hin vergrdBert wird, bis dort das andere Ende der zu optimieren- 
den Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleo- 
tidsequenz erreicht ist. 
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Die Erfindung kann auch vorsehen, daB die Testsequenzen in einem Iterationsschritt aus einer 
optimierten oder anderweitig festgelegten Teilsequenz der Lange q und zwei auf beiden Sei- 
ten daran anschliefienden Variationsbereichen mit einer Lange von m, bzw. m 2 Codons be- 
steht, wobei q+m,+m 2 = n gilt. Die Besetzung der Variationsbereiche kann fur beide Variati- 
onsbereiche gemeinsam optimiert werden, indem die Codons auf den m, und m 2 Platzen 
gleichzeitig variiert und optimiert werden. Vorzugsweise werden in einem solchen Fall in 
jedem Iterationsschritt p, und P2 Codons in dem ersten und zweiten Variationsbereich festge- 
legt, welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch 
vorgesehen sein, dafi die beiden Variationsbereiche unabhangig voneinander variiert und op- 
timiert werden. Beispielsweise kann vorgesehen sein, daB die Besetzung nur in einem der 
beiden Variationsbereiche variiert wird und nur in dem einen Bereich Codons festgelegt wer- 
den, bevor die Variation und Optimierung in den zweiten Bereich stattfindet. In diesem Fall 
werden die p, festgelegten Codons in dem ersten Bereich bei der Optimierung des zweiten 
Bereichs als gegeben vorausgesetzt. Dieses Vorgehen ist dann sinnvoll, wenn allenfalls gerin- 
ge Korrelationen zwischen den beiden Bereichen zu erwarten sind. 

GemaB dieser Ausfuhrungsform kann vorgesehen sein, daB die Nucleotidsequenz von einem 
Punkt Oder einem Bereich im Inneren der Sequenz ausgehend optimiert wird. 

Die Erfindung kann insbesondere vorsehen, daB in jedem Iterationsschritt der Bereich der 
Testsequenz auf der Gesamtsequenz den Bereich der Testsequenzen in alien vorangehenden 
Iterationsschritten umfaBt und der Bereich einer Testsequenz in zumindest einigen der voran- 
gehenden Iterationsschritte jeweils im Inneren oder jeweils am Rand des Bereichs der Testse- 
quenz in dem aktuellen Iterationsschritt liegt. 

Die Erfindung kann vorsehen, daB die Nucleotidsequenz auf verschiedenen Teilbereichen 
unabhangig optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der 
verschiedenen optimierten Teilsequenzen sein. Es kann auch vorgesehen sein, daB zumindest 
ein Teil der jeweiligen Ergebniscodons von zwei oder mehr optimierten Teilbereichen als 
Bestandteil einer Testsequenz in einer oder mehreren Iterationen verwendet wird. 

GemaB einer bevorzugten Ausfuhrungsform der Erfindung ist vorgesehen, daB in einem Ite- 
rationsschritt Testsequenzen mit alien moglichen Codonbesetzungen fur die m Optimierungs- 
positionen aus der ersten Testsequenz generiert werden und die optimale Testsequenz unter 
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alien moglichen Testsequenzen, bei denen an einer oder mehreren der m Optimierungsposi- 
tionen ein Codon durch ein anderes Codon, welches dieselbe Aminosaure exprimiert, ersetzt 
wurde, ermittelt wird. 

GemaB einer Ausfuhrungsform der Erfindung ist die zum Bewerten der Testsequenzen ver- 
wendete Gtttefunktion bei alien oder zumindest der Mehrzahl der Iterationen gleich. Die Er- 
findung kann jedoch auch vorsehen, unterschiedliche Gutefunktionen in unterschiedlichen 
Iterationen, zum Beispiel in Abhangigkeit von der Lange der Testsequenzen, zu verwenden. 

Das erfindungsgemaBe Verfahren kann insbesondere die folgenden Schritte umfassen: 
Bewerten jeder Testsequenz mit einer Gtttefunktion, 

Ermitteln eines Extremwertes innerhalb der Werte der Gtttefunktion fur alle in einem 
Iterationsschritt generierten Teilsequenzen, 

Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichts- 
funktion entspricht, als Ergebniscodons an den entsprechenden Positionen, wobei p ei- 
ne natttrliche Zahl und p < m ist. 
Die Gtttefunktion kann so definiert sein, dafi die Sequenz entweder umso naher an dem Opti- 
mum liegt, je gr5Ber der Wert der Gtttefunktion ist, oder umso naher an dem Optimum liegt, 
je kleiner ihr Wert ist. Entsprechend wird man bei dem Schritt des Ermittelns des Extrem- 
wertes das Minimum oder das Maximum der Gtttefunktion unter den generierten Codonse- 
quenzen ermitteln. 



Die Erfindung kann vorsehen, daB die Gtttefunktion eines oder mehrere der folgenden Krite- 
rien berucksichtigt: 

Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive 
Sequenzen, Sekundarstrukturen, inverse Repeats. 



Die Erfindung kann insbesondere vorsehen, dafi die Gtttefunktion eines oder mehrere der fol- 
genden Kriterien berucksichtigt: 

cis-aktive Sequenz-Motive, insbesondere DNS/Protein-Interaktionsbindestellen und 
RNS/Protein-Interaktionsbindestellen, bevorzugt SpleiBmotive, Transkriptionsfaktor- 
bindestellen, Transkriptionsterminatorenbindestellen, Polyadenylierungssignale, En- 
donucleaseerkennungssequenzen, immunomodulatorische DNS-Motive, Ribosomen- 
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bindestellen, Erkennungssequenzen fur rekombinationsaktive Enzyme, Erkennungsse- 
quenzen fur DNS-modifizierende Enzyme, Erkennungssequenzen fur RNS- 
modifizierende Enzyme, Sequenzmotive, die in einem vorgegebenen Organismus un- 
terreprasentiert sind. 

Die Erfindung kann auch vorsehen, daB die Gutefunktion eines oder mehrere der folgenden 

Kriterien beriicksichtigt: 

AusschluB oder weitgehender AusschluB von invers komplementaren Sequenzidenti- 
taten von mehr als 20 Nukleotiden zum Transkriptom eines vorgegebenen Organis- 
mus, 

AusschluB oder weitgehender AusschluB von Homologiebereichen von mehr als 1 .000 
Basenpaaren, bevorzugt 500 Basenpaaren, starker bevorzugt 100 Basenpaaren zu einer 
vorgegebenen DNS-Sequenz, zum Beispiel zu dem Genom eines vorgegebenen Orga- 
nismus oder zu der DNS-Sequenz eines vorgegebenen Vektorkonstrukts. 

Das erste dieser beiden Kriterien betrifft den AusschluB des als RNA-Indifferenz bekannten 
Mechanismus, mit dem ein Organismus RNA-Sequenzen mit mehr als 20 Nukleotiden exak- 
ter Identitat zu einer anderen RNA-Sequenz eliminiert oder deaktiviert. Mit dem zweiten 
Kriterium soli verhindert werden, daB eine Rekombination, das heiBt ein Einbau der Sequenz 
in das Erbgut des Organismus, oder eine Mobilisierung von DNS-Sequenzen durch Rekombi- 
nation mit anderen Vektoren stattfindet. Beide Kriterien konnen als absolute AusschluBkrite- 
rien verwendet werden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfullt 
sind, werden nicht beriicksichtigt. Die Erfindung kann auch, wie nachfolgend noch genauer 
im Zusammenhang mit Sequenzmotiven erlautert wird, vorsehen, daB diesen Kriterien ein 
Gewicht zugeordnet ist, das betragsmaBig grofier ist als der gr5Bte Beitrag von Kriterien zu 
der GUtefunktion, welche keine AusschluBkriterien sind. 

Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium 
vorsehen, daB keine Homologiebereiche erzeugt werden, die mehr als 90 % Ahnlichkeit 
und/oder 99 % Identitat zu einer vorgegebenen DNS-Sequenz, zum Beispiel zu der entspre- 
chenden Genomsequenz des vorgegebenen Organismus oder zu der DNS-Sequenz eines vor- 
gegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium kann entweder als absolutes 
AusschluBkriterium realisiert sein oder in einer Weise, daB es einen sehr groBen Beitrag zu 
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der Gutefunktion leistet, welcher den Beitrag anderer Kriterien, die nicht AusschluBkriterien 
sind, uberwiegt. 

Insbesondere kann vorgesehen sein, daB die Gutefunktion eine Funktion von verschiedenen 
Einzeltermen, insbesondere eine Summe von Einzeltermen ist, die jeweils ein Kriterium aus 
der folgenden Liste von Kriterien bewerten: 

Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, DNS - Motive, repetitive Se- 
quenzen, Sekundarstrukturen, inverse Repeats. 



Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von E 
, zeltermen oder eine rationale Funktion von Einzeltermen sein.Die genannten Kriterien m 
sen nicht notwendigerweise vollstandig in der Gewichtsfunktion berucksichtigt werden. 
kann auch nur ein Teil der Kriterien in der Gewichtsfunktion verwendet werden. 



Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsge- 
wichte genannt. 



Die Erfindung kann vorsehen, daB das Kriteriumsgewicht betreffend die Codon Usage (CU 

Score) proportional zu Sj fc/fcmaxi ist, wobei 

f ci die Haufigkeit des an der Stelle i der Testsequenz gesetzten Codons fur den betref- 
fenden Organismus zur Expression der Aminosaure an der Stelle i der Aminosauren- 
sequenz des zu exprimierenden Proteins ist und 

fcmaxi die Haufigkeit des Codons ist, welches in dem entsprechenden Organismus am 
haufigsten die Aminosaure an der Stelle i exprimiert. 

Das Mali fc/fcmaxi ist als ..Relative Adaptiveness" bekannt (vgl. P. M. Sharp, W. H. Li, 
Nucleic Acids Research 15 (3) (1987), 1281 bis 1295). 

Das lokale Gewicht des am haufigsten vorkommenden Codons wird dabei, unabhangig von 
der absoluten Haufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum 
Beispiel 1, gesetzt. Damit wird vermieden, daB die Positionen, an denen nur wenige Codons 
zur Auswahl stehen, starker zu dem Gesamtgewicht beitragen als diejenigen, an denen eine 
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groBere Anzahl von Codons zur Expression der Aminosaure zur Auswahl stehen. Der Index i 
kann liber die gesamten n Codons der Testsequenz oder einen Teil davon laufen. Insbesondere 
kann in einer Ausfuhrungsform vorgesehen sein, daB i nur uber die m Codons der Optimie- 
rungspositionen lauft. 



Die Erfindung kann vorsehen, daft das Kriteriumsgewicht betreffend die Codonusage nur fur 
die m Ordnungspositionen verwendet wird. 

Anstelle der Relative Adaptiveness kann auch die sogenannte RSCU (Relative Synonymous 
Codon Usage; vgl. P. M. Sharp, W. H. Li, a.a.O.) verwendet werden. Die RSCU fur eine Co- 
donposition ist definiert durch 



RSCU ci = fcidi/(Icfci) 



definiert, wobei die Summe im Nenner uber alle Codons lauft, welche die Aminosaure an der 
Stelle i exprimieren und wobei dj die Zahl der Codons angibt, welche die besagte Aminosaure 
exprimieren. Urn ein Kriteriengewicht auf der Grundlage der RSCU zu definieren, kann vor- 
gesehen sein, daB die RSCU fur die jeweilige Testsequenz Uber alle Codons der Testsequenz 
oder einen Teil davon, insbesondere uber die m-Codons der Optimierungspositionen, sum- 
miert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten Kriteriums- 
gewicht besteht darin, daB bei dieser Gewichtung jede Codonposition mit dem Grad der De- 
generiertheit, d ; , gewichtet wird, so daB solche Positioned an denen mehr Codons zur Aus- 
wahl stehen, starker in das Kriteriumsgewicht eingehen als solche Positionen, an denen nur 
wenige Codons oder sogar nur ein einziges Codon zur Auswahl stehen. 

Bei den vorangehend beschriebenen Kriteriumsgewichten fur die Codon-Usage wurde das 
arithmetische Mittel uber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet. 



Es kann auch vorgesehen sein, daB das Kriteriumsgewicht betreffend die Codon-Usage pro- 
portional zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen 
RSCU ist, so daB also gilt 



CUScore - K(TIi RSCU) 
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oder 



CUScore = K (n i fc i /fc m axi) , ' L 



ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, ttber welche das 
Produkt gebildet wird. Auch hier kann das Produkt wieder uber die gesamte Testsequenz oder 
einen Teil, insbesondere uber die m Optimierungspositionen, gebildet werden. 

In diesem Zusammenhang stellt die Erfmdung auch ein Verfahren zum Optimieren einer Nu- 
kleotidsequenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des 
Proteins zur Verfugung, welches die folgenden auf einem Computer durchgefuhrten Schritte 
umfaBt: 

Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinander- 
folgende Aminosauren in der Proteinsequenz entsprechen, wobei n eine natttrlich Zahl 
kleiner oder gleich N, der Zahl der Aminosauren der Proteinsequenz, ist, 
Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer Gutefunkti- 
on, welche ein geometrisches oder arithmetisches Mittel der Relative Adaptiveness 
Oder der RSCU Uber eine Anzahl von L Codonpositionen enthalt, wobei L kleiner oder 
gleich N ist, 

Generierung einer oder mehrerer neuer Testsequenzen in Abhangigkeit von dem Er- 
gebnis der besagten Bewertung. 

Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschrie- 
benen Weise derart erfolgen, daB die neuen Testsequenzen eine bestimmte Anzahl aufgrund 
der vorangehenden Iterationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, daB 
eine bestimmte Testsequenz mit einer bestimmten Wahrscheinlichkeit, die von dem Wert der 
Gutefunktion abhangt, als Grundlage fur weitere Iterationen, insbesondere die weitere Erzeu- 
gung von Testsequenzen, verwendet wird, wie dies bei Monte-Carlo-Verfahren der Fall ist. 



Wahrend die Qualitat eines Codons bei den obengenannten Verfahren durch die Nutzungs- 
haufigkeit im Transkriptom oder einem Gen-Referenzset des Expressionsorganismus defmiert 
wird, kann die Gttte eines bestimmten Codons altemativ auch durch die biophysikalischen 
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Eigenschaften des Codons selbst beschrieben werden. So ist zum Beispiel bekannt, daB Co- 
dons mit einer mittleren Codon-Anticodon-Bindungsenergie besondefs effizient translatiert 
werden. Als MaB for die translatorische Effizienz einer Testsequenz kann daher zum Beispiel 
der P2-Index verwendet werden, welcher das Verhaltnis der Haufigkeit von Codons mit mitt- 
lerer Bindungsenergie und Codons mit extrem starker bzw. schwacher Bindungsenergie an- 
gibt. Alternativ konnen auch experimentell oder durch theoretische Berechnungen gewonnene 
Daten zur translatorischen Effizienz oder translationsgenauigkeit eines Codons zur Gtttebe- 
wertung genutzt werden. Die oben genannten Bewertungskriterien kdnnen besonders dann 
von Vorteil sein, wenn die tRNA-Frequenzen des Expressionssystems nicht beriicksichtigt 
werden miissen, da diese wie zum Beispiel bei in Vitro-Translationssystemen vom Experi- 
mentator festgelegt werden konnen. 

Die Erfindung kann vorsehen, daB das Kriteriumsgewicht betreffend den GC-Gehalt (GCSco- 
re) eine Funktion des Betrags der Differenz des ermittelten GC-Gehalts der Teilsequenz, 
GCG, zu dem optimalen GC-Gehalt, GCG opt ist, wobei unter dem GG-Gehalt der relative 
Anteil von Guanin und Cytosin, zum Beispiel in Form eines bestimmten prozentualen Anteils, 
zu verstehen ist. 

Insbesondere kann das Kriteriumsgewicht GCScore die folgende Form haben: 
GCScore = \GCG - GCG opt |* -h 

wobei 



GCG der tatsachliche GC - Gehalt der Testsequenz oder eines vorbestimmten Teils 
der Testsequenz, GCG, oder der mittlere GC - Gehalt der Testsequenz oder eines vor- 
bestimmten Teils der Testsequenz, <GCG>, ist, 
GCG opl der gewiinschte (optimale) GC - Gehalt ist, 

g eine positive reelle Zahl, vorzugsweise im Bereich von 1 bis 3 , insbesondere 1,3 ist, 
h eine positive reelle Zahl ist. 
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Der Faktor h ist im wesentlichen ein Gewichtungsfaktor, welcher das relative Gewicht des 
Kiiteriumsgewichts GCScore gegeniiber den anderen Kriteriumsgewichten definiert. Vor- 
zugsweise wird h so gewShlt, daB der Betrag des maximal erreichbaren Wertes von GCScore 
in einem Bereich von einem Hundertstel bis zu dem Hundertfachen eines anderen Kriteriums- 
gewichtes, insbesondere aller Kriteriumsgewichte, welche keine AusschluBbedingung dar- 
stellen, wie zum Beispiel die Gewichte fur ein erwiinschtes bzw. unerwiinschtes Sequenzmo- 
tiv, betragt. 

Zur Bestimmung des mittleren GC-Gehalts kann vorgesehen sein, daB ein auf eine bestimmte 
Basenposition bezogener lokaler GC-Gehalt durch den GC-Gehalt auf einem Fenster be- 
stimmter GroBe definiert wird, welches diese Base enthalt und welches insbesondere bezug- 
lich dieser Base zentriert sein kann. Dieser lokale GC-Gehalt wird dann tiber die Testsequenz 
Oder einen Teilbereich der Testsequenz, insbesondere uber die m Optimierungspositionen, 
gemittelt, wobei auch hier sowohl ein arithmetisches als auch ein geometrisches Mittel ver- 
wendet werden kann. Verwendet man einen auf diese Weise definierten mittleren GC-Gehalt, 
ergeben sich geringere Schwankungen zwischen Testsequenzen mit einer verschiedenen Lan- 
gen. 

Die Erfmdung kann vorsehen, daB der GC-Gehalt tiber einem Fenster ermittelt wird, welches 
groBer als der Bereich der m Optimierungspositionen ist und diesen einschlieBt. Wenn die 
Optimierungspositionen ein zusammenhangendes Variationsfenster bilden, kann vorgesehen 
sein, daB b Basen vor und/oder nach dem Variationsfenster in die Bestimmung des Kriteri- 
umsgewichts fur den GC-Gehalt (GCScore) einbezogen werden, wobei b in einem Bereich 
von 15 bis 45 Basen (entspricht 5 bis 15 Codons), vorzugsweise in einem Bereich von 20 bis 
30 Basen liegen kann. 

Die Erfmdung kann weiterhin vorsehen, daB, soweit die Gutefunktion maximiert wird, bei der 
Ermittlung des Werts der Gutefunktion fur jedes Vorkommen eines nicht erlaubten oder un- 
erwunschten Sequenzmotivs ein fester Betrag abgezogen und fur jedes erwiinschte oder ge- 
forderte Motiv ein fester Betrag addiert wird (bei einer Minimierung der Gutefunktion verhalt 
es sich umgekehrt). Bei unerwiinschten oder geforderten Motiven kann dieser Betrag deutlich 
gr6Ber sein als alle anderen Kriteriumsgewichte, so daB die anderen Kriterien demgegentiber 
nicht ins Gewicht fallen. Dadurch wird ein AusschluBkriterium realisiert, wahrend gleichzei- 
tig eine Differenzierung danach stattfindet, ob ein Motiv einmal oder mehrfach aufgetreten 
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ist. Ebenso laBt sich jedoch auch dann noch eine sinnvolle Gutefunktion defmieren bzw. eine 
Bewertung der Testsequenzen mit der Gutefunktion durchfuhren, wenn die Bedingung hin- 
sichtlich des Sequenzmotivs (Nichtvorhandensein eines bestimmten Motivs/Vorhandensein 
eines bestimmten Motivs) fur alle in einem Iterationsschritt erzeugten Testsequenzen nicht 
erfullt werden kann. Dies wird insbesondere dann der Fall sein, wenn die Lange n der Testse- 
quenzen relativ klein gegeniiber N ist, da aufgrund der vorgegebenen Aminosauren der Pro- 
teinsequenz ein bestimmtes Motiv haufig erst bei groBeren n auftreten kann. 

Die Erfindung kann weiterhin vorsehen, dafl die gesamte Testsequenz oder ein Teil davon 
daraufhin uberpriift wird, ob bestimmte partielle Sequenzabschnitte oder zu bestimmten parti- 
ellen Sequenzabschnitten ahnliche Sequenzabschnitte in einem anderen Bereich der Testse- 
quenz oder eines gegebenen Bereichs der Testsequenz auftreten oder ob bestimmte partielle 
Sequenzabschnitte oder zu bestimmten partiellen Sequenzabschnitten ahnliche Sequenzab- 
schnitte in der invers komplementaren Testsequenz oder eines Teils der invers komplementa- 
ren Testsequenz vorkommen, und in Abhangigkeit hiervon ein Kriteriumsgewicht fur Se- 
quenzwiederholungen (repeats) und/oder inverse Sequenzwiederholungen (inverse repeats) 
berechnet wird. Im Regelfall wird dabei die Sequenz nicht nur darauf uberpriift, ob ein be- 
stimmter Sequenzabschnitt identisch in der Testsequenz bzw. der invers-komplementaren 
Testsequenz bzw. eines Teilbereichs davon enthalten ist, sondem auch darauf, ob eine ahnli- 
che, also nur teilweise ubereinstimmende Sequenz in der Testsequenz bzw. der invers- 
komplementaren Testsequenz bzw. eines Teils davon enthalten ist. Algorithmen zum Auffin- 
den von globalen Ubereinstimmungen (Global-Alignment-Algorithmen) oder lokalen Uber- 
einstimmungen (Local Alignment-Algorithmen) zweier Sequenzen sind in der Bioinformatik 
allgemein bekannt. Zu den geeigneten Verfahren zahlen beispielsweise die in der Bioinfor- 
matik allgemein bekannten Dynamic Programming - Algorithmen, z.B. der sogenannte 
Needleman-Wunsch-Algorithmus fur globales Alignment und der Smith-Waterman- 
Algorithmus fur lokales Alignment. Insoweit wird beispielsweise auf Michael S. Waterman, 
Introduction to Computational Biology, London, New York 2000, insbesondere S. 207 bis 
209 oder Dan Gusfield, Algorithms on Strings, Trees and Sequences, Cambridge, 1999, ins- 
besondere S. 215 bis 235, verwiesen. 



Die Erfindung kann insbesondere vorsehen, daB jede Wiederholung eines partiellen Sequenz- 
abschnittes in einem anderen Teil der Testsequenz oder eines vorgegebenen Bereichs der 
Testsequenz mit einem bestimmten Gewicht gewichtet wird, welches ein MaB fur den Grad 
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der Obereinstimmung und/oder die GroBe der zueinander ahnlichen Abschnitte darstellt, und 
daB die Gewichte der einzelnen Wiederholungen zur Ermittlung des Kriteriumsgewichts be- 
treffend die Wiederholungen bzw. invers komplementaren Wiederholungen addiert werden. 
Es kann ebenfalls vorgesehen sein, daB die Gewichte der einzelnen Wiederholungen mit ei- 
nem vorgegebenen Exponenten, dessen Wert vorzugsweise zwischen 1 und 2 liegt, potenziert 
werden und anschlieBend die Summation zur Ermittlung des Kriteriumsgewichts betreffend 
die Wiederholungen bzw. invers komplementare Wiederholungen durchgefuhrt wird. Dabei 
kann vorgesehen sein, daB Wiederholungen unterhalb einer bestimmten Lange und/oder Wie- 
derholungen, deren Gewichtsanteil unterhalb einer gewissen Schwelle liegt, nicht berucksich- 
tigt werden. Die Erfmdung kann vorsehen, daB zur Berechnung des entsprechenden Kriteri- 
umsgewichts nur die Wiederholungen oder invers komplementaren Wiederholungen eines 
partiellen Sequenzabschnitts berticksichtigt werden, der in einem vorgegebenen Teilbereich 
der Testsequenz (Testbereich), z.B. an dessen Ende und/oder in einem Variationsfenster liegt. 
Beispielsweise kann vorgesehen sein, daB nur die letzten 36 Basen der Testsequenz daraufhin 
iiberpruft werden, ob ein bestimmter Sequenzabschnitt innerhalb dieser 36 Basen mit einem 
anderen Sequenzabschnitt der gesamten Testsequenz oder der gesamten invers komplementa- 
ren Testsequenz tibereinstimmt. 

Die Erfmdung kann vorsehen, daB bei den Kriteriumsgewichten betreffend Wiederholungen, 
invers komplementare Wiederholungen und/oder DNS-Motive nur der oder die M Abschnitte 
der Testsequenz berticksichtigt werden, welche den groBten bzw. betragsmaBig groBter Bei- 
trag zu dem Kriteriumsgewicht liefern, wobei M eine natiirliche Zahl, vorzugsweise zwischen 
1 und 10, ist. 

GemMfl einer Ausfuhrungsform der Erfmdung kann vorgesehen sein, daB eine Matrix gene- 
riert wird, deren Spaltenzahl der Anzahl der Positionen des Bereichs der Testsequenz (Testbe- 
reich) entspricht, der auf Wiederholungen in anderen Bereichen uberpruft werden soli, und 
dessen Zeilenzahl der Anzahl der Positionen des Bereichs der Testsequenz entspricht, mit 
dem verglichen werden soil (Vergleichsbereich). Sowohl der Testbereich als auch der Ver- 
gleichsbereich konnen die gesamte Testsequenz umfassen. 

Die Erfmdung kann weiterhin vorsehen, daB die gesamte Gewichtsfunktion GesScore sich 
wie folgt bestimmt: 
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GesScore = CUScore - GCScore - REPScore - SiteScore, 



wobei CUScore das Kriteriumsgewicht fur die Codon Usage ist, GCScore das Kriteriumsge- 
wicht fur den GC-Gehalt ist, REPScore das Kriteriumsgewicht fur Wiederholungen und in- 
vers komplementare Wiederholungen von gleichen oder ahnlichen Sequenzabschnitten ist und 
SiteScore das Kriteriumsgewicht fur das Auftreten von unerwiinschten bzw. geforderten Mo- 
tiven ist. 

Das Gewicht REPScore kann gemaB einer Ausfuhrungsform der Erfindung aus einer Summe 
von zwei Bestandteilen bestehen, von denen der erste das Kriteriumsgewicht fur die Wieder- 
holung von gleichen oder ahnlichen Sequenzabschnitten in der Testsequenz selbst bzw. eines 
Teilbereichs davon angibt und der zweite Bestandteil das Kriteriumsgewicht fur invers kom- 
plementare Wiederholungen von gleichen oder ahnlichen Sequenzabschnitten in der Testse- 
quenz oder eines Teilbereichs davon angibt. 

Wenn die Gutefunktion sich aus Anteilen mehrerer Testkriterien zusammensetzt, insbesonde- 
re dann, wenn die Gutefunktion aus einer Linearkombination von Kriteriumsgewichten be- 
steht, muB in einem Iterationsschritt eine Testsequenz nicht notwendigerweise nach alien 
Kriterien bewertet werden. Vielmehr kann die Bewertung bereits dann abgebrochen werden, 
wenn absehbar ist, daB der Wert der Gutefunktion geringer oder, allgemeiner gesprochen, 
weniger optimal, als der Wert der Giitefunktion einer bereits bewerteten Testsequenz ist. Bei 
den vorangehend beschriebenen Ausfuhrungsformen gehen die meisten Kriterien, wie die 
Kriteriumsgewichte fur repetitive Elemente, auszuschlieBende Motive usw., negativ in die 
Gutefunktion ein. Wenn nach Berechnung der Kriteriumsgewichte, welche positiv in die Gu- 
tefunktion eingehen und ggf. einem Teil der Kriteriumsgewichte, welche negativ in die Gute- 
funktion eingehen, sich bei der Aufsummation entsprechend der durch die Gutefunktion defi- 
nierten Linearkombination der entsprechenden bereits berechneten Kriteriumsgewichte einen 
Wert ergibt, der kleiner ist als ein bereits berechneter Wert der vollstandigen Gutefunktion fur 
eine andere Testsequenz, kann die aktuell bewertete Testsequenz bereits ausgeschieden wer- 
den. Ebenso kann zum Beispiel dann, wenn ein Kriteriumsgewicht betragsmaBig wesentlich 
grfifier ist als alle anderen Gewichte, haufig die Bewertung bereits nach der Ermittlung des 
entsprechenden Kriteriumsgewichts abgebrochen werden. Wenn beispielsweise in einer ersten 
Testsequenz ein unerwUnschtes Motiv nicht aufgetaucht ist und in einer zweiten Testsequenz 
das unerwUnschte Motiv auftaucht, kann die zweite Testsequenz sofort ausgeschlossen wer- 
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den, da das Kriteriumsgewicht for die Motivsuche so groB ist, daB es nicht durch andere Kri- 
teriumsgewichte kompensiert werden kann. 

Insbesondere kann die Erfindung vorsehen, dafl bei Ausftihrungsformen, bei denen die Gtite- 
funktion iterativ berechnet werden kann, zumindest bei einer Iteration eine obere (bzw. bei 
Optimierung auf das Minimum der Gtitefunktion untere) Grenze bestimmt wird, unterhalb 
(bzw. oberhalb) derer der Wert der vollstandigen Gtitefunktion liegt, und die Iteration der 
Gtitefunktion abgebrochen wird, wenn dieser Wert unter (bzw. tiber) dem Wert der vollstan- 
digen Gtitefunktion ftir eine Testsequenz liegt, der vorangehend ermittelt wurde. 

Die Erfindung kann in diesen Fallen vorsehen, daB im weiteren Verfahren ftir diese Testse- 
quenz als Wert der Gtitefunktion die besagte obere bzw. untere Grenze, falls erforderlich, 
verwendet wird und/oder daB die entsprechende Testsequenz in dem Algorithmus ausgeschie- 
den wird, etwa dadurch, daB die Variable fur die optimierte Testsequenz mit einer vorange- 
hend aufgefundenen Testsequenz besetzt bleibt, bei der die Gtitefunktion einen hoheren Wert 
als die oben genannte Grenze, und der Algorithmus zu der Bewertung der nachsten Testse- 
quenz tibergeht. Die Erfindung kann dabei, insbesondere wenn die Gtitefunktion eine Linear- 
kombination von Kriteriumsgewichten ist, vorsehen, daB in den ersten Iterationen derjenige 
Beitrag oder diejenigen Beitrage berechnet werden, deren hochster Wert bzw. deren minima- 
ler Wert den hSchsten Absolutbetrag besitzt. 

Die Erfindung kann vorsehen, daB bei einer Gtitefunktion, die auf ihr Maximum optimiert 
wird und die durch eine Linearkombination von Kriteriumsgewichten gebildet wird, zunachst 
die positiven Anteile der Linearkombination berechnet werden und die Iteration abgebrochen 
wird, wenn in einer Iteration nach der Berechnung aller positiven Kriteriumsgewichte der 
Wert der Gtitefunktion in dieser Iteration kleiner ist als der Wert der vollstandigen Gutefunk- 
tion ftir eine andere Testsequenz. 

Die Erfindung kann auch vorsehen, daB eine Iteration der Gtitefunktion abgebrochen wird, 
wenn in einer Iteration festgestellt wird, daB die Summe aus dem in dieser Iteration berech- 
neten Wert der GUtefunktion und dem Hochstwert des Beitrags der noch nicht berechneten 
Kriteriumsgewichte unterhalb des Werts der vollstandigen Gtitefunktion einer anderen Test- 
sequenz liegt. 
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Das erfindungsgemaBe Verfahren kann den Schritt des Synthetisierens der optimierten 
Nucleotidsequenz umfassen. 

Dabei kann vorgesehen sein, daS der Schritt des Synthetisierens der optimierten Nucleotidse- 
quenz in einer Vorrichtung zum automatischen Synthetisieren von Nucleotidsequenzen, zum 
Beispiel in einem Oligonucleoudsynthesizer, stattfindet, welcher von dem Rechner angesteu- 
ert wird, der die Nucleotidsequenz optimiert. 

Die Erfmdung kann insbesondere vorsehen, daB der Rechner, sobald der Optimierungsprozefi 
abgeschlossen ist, die ermittelten Daten ttber die optimale Nucleotidsequenz an einen Oligo- 
nucleotidsynthesizer weitergibt und diesen veranlaflt, die Synthese der optimierten Nucleo- 
tidsequenz durchzufUhren. 

Diese Nucleotidsequenz kann dann, wie gewttnscht, hergestellt werden. Zur Expression des 
Proteins wird die entsprechende Nucleotidsequenz in Wirtszellen eines Wirtsorganismus ein- 
gebracht, auf welchen sie optimiert ist und welcher dann letztendlich das Protein erzeugt. 

Die Erfmdung stellt auch eine Vorrichtung zum Optimieren einer Nucleotidsequenz zur Ex- 
pression eines Proteins auf der Grundlage der Aminosaurensequenz des Proteins zur Verfu- 
gung, welche eine Recheneinrichtung aufweist, welche umfaJJt: 

eine Einrichtung zum Generieren einer ersten Testsequenz von n Codons, welche n 
aufeinanderfolgenden Aminosauren in der Proteinsequenz entsprechen, wobei n eine 
natttrliche Zahl kleiner oder gleich N, der Zahl der Aminosauren der Proteinsequenz 
ist, 

eine Einrichtung zum Festlegen von n Optimierungspositionen in der Testsequenz, 
welche der Position von m Codons entsprechen, an denen die Besetzung mit einem 
Codon, bezogen auf die Testsequenz, optimiert werden soil, wobei m < n und m < M 
ist, 

eine Einrichtung zum Generieren einer oder mehrerer weiterer Testsequenzen aus der 
ersten Testsequenz, indem an einer oder mehreren der m Optimierungspositionen ein 
Codon der ersten Testsequenz durch ein anderes Codon ersetzt wird, welches dieselbe 
Aminosaure exprimiert, 

eine Einrichtung zum Bewerten jeder der Testsequenzen mit einer Gutefunktion und 
zum Ermitteln der hinsichtlich der Gutefunktion optimalen Testsequenz, 
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eine Einrichtung zum Festlegen von p Codons der optimalen Testsequenz, welche sich 
an einem der m Optimierungspositionen befinden, als Ergebniscodons, welche die Co- 
dons der optimierten Nucleotidsequenz an den Positionen bilden, die den Positionen 
der besagten p Codons in der Testsequenz entsprechen, wobei p eine naturliche Zahl 
und p < m ist, 

eine Einrichtung zum Iterieren der Schritte des Generierens mehrerer Testfunktionen, 
der Bewertung der Testsequenzen und des Festlegens von Ergebniscodons, vorzugs- 
weise bis alle Codons der optimierten Nucleotidsequenz festgelegt worden sind, wobei 
in jedem Iterationsschritt die Testsequenz an den Positionen, welche Positionen von 
festgelegten Ergebniscodons in der optimierten Nucleotidsequenz entsprechen, das 
entsprechende Ergebniscodon enthalt und die Optimierungspositionen von Positionen 
von Ergebniscodons verschieden sind. 

Die vorangehend genannten Einrichtungen mussen nicht verschieden sein, sondern konnen 
insbesondere durch eine einzige Vorrichtung realisiert werden, welche die Funktionen der 
vorangehend genannten Einrichtungen realisiert. 

Die erfindungsgemafte Vorrichtung kann allgemein eine Einrichtung zum Durchfuhren der 
Schritte der vorangehend beschriebenen Verfahren aufweisen. 

Die erfindungsgemafte Vorrichtung kann einen Oligonucleotidsynthesizer aufweisen, welcher 
von dem Rechner so angesteuert wird, daft er die optimierte Nucleotidsequenz synthetisiert. 



Bei dieser Ausfuhrungsform der Erfindung kann entweder automatisch oder durch einen ent- 
sprechenden Befehl des Benutzers die optimierte Nucleotidsequenz synthetisiert werden, ohne 
daft Datentransfers, Einstellung von Parametem und dergleichen n6tig sind. 



Die Erfindung stellt auch ein Computerprogramm zur Verfugung, welches von einem Com 
puter ausfuhrbaren Programmcode enthalt, der, wenn er auf einem Computer ausgeftlhrt wird 
den Computer veranlaftt, ein erfindungsgemaftes Verfahren durchzufuhren. 
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Dabei kann der Programmcode, wenn er auf einem Computer ausgefiihrt wird, eine Vorrich- 
tung zum automatischen Synthetisieren von Nucleotidsequenzen veranlassen, die optimierte 
Nucleotidsequenz herzustellen. 

Die Erfindung stellt auch einen computerlesbaren Datentrager zur Verfiigung, auf welchem in 
computerlesbarer Fonn ein erfindungsgemaBes Programm gespeichert ist. 

Die Erfindung stellt weiterhin eine nach einem erfindungsgemaBen Verfahren hergestellte 
oder herstellbare Nukleinsaure und einen Vektor, der eine solche Nukleinsaure enthalt, zur 
Verfiigung. Die Erfindung stellt weiterhin eine Zelle, die einen solchen Vektor oder eine sol- 
che Nukleinsaure enthalt, zur Verfiigung sowie einen nicht-menschlichen Organismus bzw. 
ein nicht-menschliches Lebewesen, das eine solche Zelle enthalt, wobei ein solches nicht- 
menschliches Lebewesen auch ein Saugetier sein konnte. 

Wahrend bei statistischen Verfahren keinerlei {Correlation zwischen einer Sequenz in einem 
vorangehenden Iterationsschritt und der Sequenz in einem nachfolgenden Iterationsschritt 
besteht, wird erfindungsgemaB in jedem Iterationsschritt zumindest ein Codon neu festgelegt. 
Da die Testsequenz nur auf einem Teil der Gesamtsequenz variiert wird, ist das Verfahren mit 
einem geringeren Aufwand durchfiihrbar. Insbesondere ist es moglich, in dem Variationsbe- 
reich samtliche moglichen Kombinationen von Codons zu evaluieren. Die Erfindung macht 
sich in vorteilhafter Weise den Umstand zunutze, daB langreichweitige Korrelationen inner- 
halb einer Nucleotidsequenz von untergeordneter Bedeutung sind, d.h. daB zur Erzielung ei- 
nes akzeptablen Optimierungsergebnisses die Codons an einer Position weitgehend unabhan- 
gig von den Codons an einer weiter entfernten Position variiert werden k6nnen. 

Das erfindungsgemaBe Verfahren eroffhet in grSfierem Umfang als die bisherigen Verfahren 
die Moglichkeit, relevante biologische Kriterien in die Bewertung einer Testsequenz einzube- 
ziehen. Beispielsweise konnen mit dem erfindungsgemaBen Verfahren erwunschte oder un- 
erwiinschte Motive in der synthetischen Nukleotidsequenz berttcksichtigt werden. Da bei ei- 
ner Motivsuche bereits ein individuelles Codon dafiir ausschlaggebend sein kann, ob ein be- 
stimmtes Motiv vorhanden ist oder nicht, werden rein stochastische Verfahren nicht oder nur 
mit einer sehr geringen Wahrscheinlichkeit optimierte Sequenzen liefem, welche ein gefor- 
dertes Motiv enthalten. Bei dem erfindungsgemaBen Verfahren ist dies jedoch deswegen 
mdglich, da ttber einem Teilbereich der Sequenz samtliche Codonkombinationen durchgete- 
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stet werden. Gegebenenfalls kann man, urn das Vorhandensein bzw. Nichtvorhandensein ei- 
nes bestimmten Sequenzmotivs zu gewahrleisten, die Anzahl m der Optimierungspositionen 
so groB machen, daB diese groBer ist als die Zahl der Codonpositionen (oder die Anzahl der 
Basenpositionen, geteilt durch 3) des entsprechenden Motivs. Wenn die m Optimierungsposi- 
tionen zusammenhangend sind, ist damit gewahrleistet, daB das Auftauchen eines bestimmten 
Sequenzmotivs zuverlassig erfaBt und das entsprechende Motiv in der Sequenz gewahrleistet 
bzw. aus dieser ausgeschlossen werden kann. Die numerische Berechnung der Gtttefunktion 
hat besondere Vorteile bei der Verwendung von Gewichtsmatrix-Scans. Da hierbei den ver- 
schiedenen Basen einer Erkennungssequenz eine unterschiedlich starke Bedeutung fur die 
Erkennung bzw. die biologische Aktivitat zugeordnet werden kann, kann bei dem erfindungs- 
gemaBen Verfahren, bei dem tiber einen Teilbereich der Sequenz alle moglichen Codonkom- 
binationen durchgetestet werden, die Sequenz gefunden werden, die zum Beispiel ein DNA- 
Motiv durch Eliminierung der fur die Aktivitat wichtigsten Basen am effektivsten ausschaltet 
bzw. es kann eine optimierte KompromiBlSsung unter Einbeziehung anderer Kriterien gefun- 
den werden. 

Die Erfmdung ist grundsatzlich nicht auf einen bestimmten Organismus beschrankt. Orga- 
nismen, fur welche eine Optimierung einer Nukleotidsequenz zur Expression eines Proteins 
mit dem erfindungsgemaBen Verfahren von besonderem Interesse ist, sind z.B. Organismen 
aus der folgenden Gruppe: 

Viren, insbesondere Vaccinia- Viren, 

Prokaryonten, insbesondere Escherichia coli, Caulobacter cresentus, Bacillus subtilis, 
Mycobacterium spec, 

Hefen, insbesondere Saccharomyces cerevisiae, Schizosaccharomyces pombe, Pichia 
pastoris, Pichia angusta, 

Insekten, insbesondere Sprodoptera frugiperda, Drosophila spec, 
Sauger, insbesondere Homo sapiens, Macaca mulata, Mus musculus, Bos taurus, Ca- 
pra hircus, Ovis aries, Oryctolagus cuniculus, Rattus norvegicus, Chinese hamster ova- 
ry. 

monokotyle Pflanzen, insbesondere Oryza sativa, Zea mays, Triticum aestivum 
dikotyle Pflanzen, insbesondere Glycin max, Gossypium hirsutum, Nicotiana tabacum, 
Arabidopsis thaliana, Solanum tuberosvim. 



Proteine, fur die eine optimierte Nucleotidsequenz mit dem erfindungsgemaBen Verfahren 
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generiert werden kann, sind zum Beispiel: 

Enzyme, insbesondere Polymerasen, Endonukleasen, Ligasen, Lipasen, Proteasen, 

Kinasen, Phosphatasen, Topoisomerasen, 

Cytokine, Chemokine, Transkriptionsfaktoren, Oncogene, 

Proteine aus thermophilen Organismen, aus cryophilen Organismen, aus halophilen 
Organismen, aus acidophilen Organismen, aus basophilen Organismen, 
Proteine mit repetitiven Sequenzelementen, insbesondere strukturgebende Proteine, 
Humane Antigene, insbesondere Tumorantigene, Tumormarker, Autoimmunantigene, 
diagnostische Marker, 

Virale Antigene, insbesondere von HAV, HBV, HCV, HIV, SIV, FIV, HPV, Rinovi- 
ren, Influenzaviren, Herpesviren, Poliomaviren, Hendra Virus, Dengue Virus, AAV, 
Adenoviren, HTLV, RSV, 

Antigene von Protozoen und/oder parasitaren Erregem, insbesondere Erreger von 
Malaria, Leishmania, Trypanosoma, Toxoplasmen, Am6ba, 

Antigene von bakteriellen Erregem oder Pathogene, insbesondere von den Genera 
Chlamydia, Staphylococcen, Klebsiella, Streptococcus, Salmonella, Listeria, Borrelia, 
Escherichia coli, 

Antigene von Organismen der Sicherheitstufe L4, insbesondere Bacillus anthracis, 
Ebola-Virus, Marburg-Virus, Pockenviren. 

Die vorangehende Aufzahlung von Organismen bzw. Proteinen, fur welche die Erfindung 
Anwendung findet, ist in keiner Weise einschrankend und lediglich als Beispiel zur besseren 
Veranschaulichung gedacht. 

Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschrei- 
bung von Ausfuhrungsbeispielen der Erfindung anhand der beigefUgten Zeichnungen. 

Figur la, lb zeigen ein Flufidiagramm eines Ausfuhrungsbeispiels des Verfahrens 

der Erfindung, 



Figur 2 



illustriert das Verhaltnis von Testsequenz, optimierter DNS-Sequenz, 
Kombinations-DNS-Sequenz und Aminosauresequenz fur ein Ausftth- 
rungsbeispiel der Erfindung, 



WO 2004/059556 PCT/EP2003/014850 

-24- 

Figur 3 zeigt die Bereiche fur die Bestimmung der Sequenzwiederholung, 



Figur 4a und 4b zeigen schematisch ein Schema fur die Bestimmung von Sequenzwie- 

derholungen, 

Figur 5a zeigt die Codon usage bei einer ausschliefflichen Optimierung auf die 

Codon usage, 

Figur 5b zeigt den GC-Gehalt bei einer ausschlieBlichen Optimierung auf die 

Codon usage, 

Figur 6a zeigt die Codon usage bei Verwendung einer ersten Gutefunktion, 

Figur 6b zeigt den GC-Gehalt bei Verwendung einer ersten Gutefunktion, 

Figur 7a zeigt die Codon usage bei Verwendung einer zweiten Gutefunktion, 

Figur 7b zeigt den GC-Gehalt bei Verwendung einer zweiten Gutefunktion, 

Figur 8a zeigt die Codon usage bei Verwendung einer dritten Gutefunktion, 

Figur 8b zeigt den GC-Gehalt bei Verwendung einer dritten Gutefunktion, 

Fig 9 zeigt eine reprasentative Maus-MIPlalpha-Eichgerade im Zusammen- 

hang mit dem Beispiel 3, 



Fig !Q illustriert die prozentuale Steigerung der Gesamtproteinmenge nach 

Transfektion von synthetischen Expressionskonstrukten gegenuber 
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Wildtyp-Expressionskonstrukten im Zusammenhang mit dem Beispiel 
3, 

Fig . 1 1 zeigt eine reprasentative ELISA-Analyse der Zellysate und Oberstande 

transfizierter H1299-Zellen im Zusammenhang mit dem Beispiel 3 und 

Fig. 12Abis 12C zeigt die Expressionsanalyse der synthetischen Leserahmen und der 

Wildtyp-Leserahmen im Zusammenhang mit dem Beispiel 3. 

Gemali einer bevorzugten AusfUhrungsform der Erfindung wird in einer Iteration die Wahl 
des Codons fur die i-te Aminosaure einer Aminosauresequenz der Lange N betrachtet. Dazu 
werden samtliche mdglichen Codonkombinationen der verfugbaren Codons fur die Ami- 
nosauren an den Positionen i bis i + m - 1 gebildet. Diese Positionen bilden ein Variationsfen- 
ster und legen die Optimierungspositionen fest, auf denen die Sequenz variiert werden soil. 
Jede Kombination von Codons auf diesem Variationsfenster resultiert in einer DNS-Sequenz 
mit 3 m Basen, die im folgenden Kombinations-DNS-Sequenz (KDS) genannt wird. In jedem 
Iterationsschritt wird zu jeder KDS eine Testsequenz gebildet, welche die KDS an ihrem Ende 
enthalt. Im ersten Iterationsschritt bestehen die Testsequenzen nur aus den Kombinations- 
DNS-Sequenzen. Die Testsequenzen werden mit einer nachfolgend naher beschriebenen Gti- 
tefunktion gewichtet und das erste Codon derjenigen KDS, welche den maximalen Wert der 
Gtttefunktion aufweist, wird fur alle weiteren Iterationen als Codon der optimierten Nucleo- 
tidsequenz (Ergebniscodon) beibehalten. Dies bedeutet, daB dann, wenn in einer Iteration das 
i-te Codon festgelegt wurde, jede der Testsequenzen in der nachsten Iteration dieses Codon an 
der Position i enthalt und an den Positionen i + 1 bis i + m die Codons der verschiedenen 
Kombinations-DNS-Sequenzen. Bei der j-ten Iteration bestehen also alle Testsequenzen an 
den Positionen 1 bis j - 1 aus den in den vorangehenden Iterationen als optimal aufgefunde- 
nen Codons, wahrend die Codons an den Positionen j bis j + m - 1 variiert werden. Die Gate 
der DNS-Sequenz laBt sich fur jedes individuelle Testkriterium als Kriteriumsgewicht (Ein- 
zelscore) ausdriicken. Durch Addition der nach benutzerdefinierten Vorgaben gewichteten 
Kriteriumsgewichte wird ein Gesamtgewicht (Gesamtscore) gebildet, welches den Wert der 
GUtefunktion fur die gesamte Testsequenz angibt. Wenn j = N - m + 1 ist, ist die optimale 
Testsequenz gleichzeitig die optimierte Nucleotidsequenz nach dem Verfahren der Erfindung. 
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Daher werden in diesem (letzten) Schritt samtliche Codons der optimal KDS als Codons der 
optimierten Nucleotidsequenz festgelegt. 

Der vorangehend beschriebene Ablauf ist schematisch in Figur 1 illustriert. Der Algorithmus 
beginnt bei der ersten Aminosaure (i=l). Es wird nun eine erste KDS der Codons fur die 
AminosSuren i bis i + m -1 gebildet (bei der ersten Iteration sind dies die Aminosauren 1 bis 
m). Diese KDS wird mit der bereits optimierten DNS-Sequenz zu einer Testsequenz zusam- 
mengefugt. Im ersten Schritt besteht die optimierte DNS-Sequenz aus 0 Elementen. Daher 
besteht die Testsequenz bei der ersten Iteration nur aus der zuvor gebildeten (ersten) KDS. 

Die Testsequenz wird nun nach benutzerdefmierten Kriterien evaluiert. Der Wert einer Gute- 
funktion wird berechnet, indem Kriteriumsgewichte ftr verschiedene Bewertungskriterien 
berechnet und in einer Bewertungsfunktion verrechnet werden. Wenn der Wert der Giitefunk- 
tion besser als ein gespeicherter Wert der Gutefunktion ist, wird der neue Wert der Gutefunk- 
tion gespeichert. Gleichzeitig wird auch das erste Codon der zugehdrigen KDS, welches die 
Aminosaure i reprasentiert, gespeichert. Wenn der Wert der Gutefunktion schlechter als der 
gespeicherte Wert ist, erfolgt keine MaBnahme. Im nachsten Schritt wird iiberpruft, ob alle 
mdglichen KDS gebildet worden sind. Ist dies nicht der Fall, wird die nachstmogliche KDS 
gebildet und mit der bereits optimierten DNS-Sequenz zu einer neuen Testsequenz zusam- 
mengefiigt. Die Schritte des Evaluierens, des Bestimmens einer Gutefunktion und des Ver- 
gleichs des Wertes der Gutefunktion mit einem gespeicherten Wert wiederholen sich dann. 
Sind dagegen alle moglichen KDS gebildet worden, wird, sofem i * N - m + 1 ist, das ge- 
speicherte Codon an die bereits gebildete optimierte DNS-Sequenz an der Position i angefugt. 
Bei der ersten Iteration wird die optimierte DNS-Sequenz dadurch gebildet, dafi das gespei- 
cherte Codon auf die Position 1 der optimierten DNS-Sequenz gesetzt wird. Der ProzeB wie- 
derholt sich dann fur die nachste Aminosaure (i + 1). Ist dagegen i = N - m + 1, wird die ge- 
samte KDS der optimalen Testsequenz an die bereits gebildete optimierte DNS-Sequenz an- 
gehangt, da sie bereits hinsichtlich der Bewertungskriterien optimiert ist. Es folgt dann die 
Ausgabe der optimierten Sequenz. 



Das Verhaltnis der verschiedenen Bereiche ist diagrammatisch in Figur 2 dargestellt. Man 
erkennt die Kombinations-DNS-Sequenz und den Bereich der bereits festgelegten optimierten 
DNS-Sequenz. 
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Der Parameter m kann in weiten Bereichen variiert werden, wobei im Sinne einer bestmogli- 
chen Optimierung eine mdglichst hohe Zahl von variierten Codons angestrebt wird. Mit den 
derzeit verfugbaren Rechnern laBt sich mit einer GriJfie des Variationsfensters von m = 5 bis 
m = 10 in einer akzeptablen Zeit ein sinnvolles Optimierungsergebnis erreichen. 



Neben der individuellen Gewichtung der Kriteriumsgewichte k6nnen sowohl das Gesamtge- 
wicht als auch die Kriteriumsgewichte durch geeignete mathematische Funktionen definiert 
sein, die gegenuber den einfachen Relationen, wie Differenz oder Proportion, modifiziert 
sind, z.B. durch abschnittsweise definierte Funktionen, welche einen Schwellenwert defmie- 
ren, oder nichtlineare Funktionen. Ersteres ist beispielsweise bei der Bewertung von Wieder- 
holungen oder invers komplementaren Wiederholungen sinnvoll, die erst ab einer bestimmten 
Gr6Be beriicksichtigt werden sollen. Letzteres ist z.B. bei der Bewertung der Codon usage 
oder des CG-Gehalts sinnvoll. 



Nachfolgend werden verschiedene beispielhafte Gewichtungskriterien erlautert, die er 
dungsgemaB verwendet werden konnen, ohne daB die Erfmdung auf diese Kriterien bzw. 
nachfolgend beschriebenen Gewichtungsfunktionen beschrankt ware. 



Die Anpassung der Codon usage des synthetischen Gens an die Codonusage des Wirtsorga- 
nismus ist eines der wichtigsten Kriterien bei der Optimierung. Hierbei muB die unterschied- 
liche Degeneriertheit der verschiedenen Codons (einfach bis sechsfach) beriicksichtigt wer- 
den. Hierfiir geeignete GrOflen sind z.B. die RSCU (relative synonymous codon usage) oder 
relative Haufigkeiten (Relative Adaptiveness), die auf die Haufigkeit des am meisten von dem 
Organismus genutzten Codons normiert sind (das am meisten genutzte Codon hat also die 
„Codon usage" 1), vgl. P. M. Sharp, W. H. Li, Nucleic Acid Research 15 (1987), 1281 bis 
1295. 



Zur Bewertung einer Testsequenz wird bei einer Ausftihrungsform der Erfmdung die durch- 
schnittliche Codon usage auf dem Variationsfenster verwendet. 



Bei der Bewertung des GC-Gehalts ist eine mOglichst geringe Abweichung des durchschnitt- 
lichen GC-Gehaltes von dem vorgegebenen gewtinschten GC-Gehalt erforderlich. Weiterhin 
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ist es anzustreben, Schwankungen des GC-Gehaltes uber dem Verlauf der Sequenz gering zu 
halten. 



Zur Evaluierung einer Testsequenz wird der durchschnittliche prozentuale GC-Gehalt desje- 
nigen Bereichs der Testsequenz ermittelt, der die KDS und vor dem Beginn der KDS liegende 
Basen umfaBt, deren Anzahl b vorzugsweise zwischen 20 und 30 Basen liegt. Das Kriteri- 
umsgewicht wird aus dem Absolutwert der Differenz zwischen dem gewiinschten GC-Gehalt 
und dem ermittelten GC-Gehalt fur die Testsequenz ermittelt, wobei dieser Absolutwert als 
Argument in eine nichtlineare Funktion, z.B. in eine Exponentialfunktion eingehen kann. 



Wenn das Variationsfenster eine Breite von mehr als 10 Codonpositionen hat, kormen 
Schwankungen des GC-Gehalts innerhalb der KDS von Bedeutung sein. In diesen Fallen 
wird, wie vorangehend erlSutert, der GC-Gehalt fur jede Basenposition auf einem Fenster 
ermittelt, das beziiglich der Basenposition in einer bestimmten Weise ausgerichtet ist und eine 
bestimmte Anzahl, zum Beispiel 40 Basen, umfassen kann, und die Absolutwerte der Diffe- 
renz zwischen dem gewiinschten GC-Gehalt und dem fur jede Basenposition ermittelten „lo- 
kalen" GC-Gehalt werden aufsummiert. Teilt man die Summe durch die Anzahl der ermittel- 
ten Einzelwerte, so erhalt man als Kriteriumsgewicht die durchschnittliche Abweichung von 
dem gewiinschten GC-Gehalt. Bei dem vorangehend beschriebenen Vorgehen kann die Lage 
des Fensters so definiert sein, daB die besagte Basenposition zum Beispiel am Rand oder im 
Zentrum des Fensters liegt. Altemativ kann auch als Kriterium der Absolutbetrag der Diffe- 
renz zwischen dem tatsachlichen GC-Gehalt in der Testsequenz oder auf einem Teilbereich 
davon zu dem gewiinschten GC-Gehalt oder der Absolutbetrag der Differenz zwischen dem 
Mittelwert des vorangehend erwahnten „lokalen" GC-Gehalts uber die Testsquenz oder einem 
Teil davon und dem gewiinschten GC-Gehalt als Kriterium verwendet werden. In einer weite- 
ren Abwandlung kann auch vorgesehen sein, dali das entsprechende Kriteriumsgewicht pro- 
portional zu dem Quadrat der Differenz zwischen dem tatsachlichen GC-Gehalt und dem ge- 
wiinschten GC-Gehalt, dem Quadrat der Differenz zwischen dem uber die Basenpositionen 
gemittelten GC-Gehalt und dem gewiinschten GC-Gehalt bzw. der Mittelwert des Quadrats 
der Differenzen zwischen dem lokalen GC-Gehalt und dem gewiinschten GC-Gehalt als Kri- 
terium verwendet werden. Das Kriteriumsgewicht fur den GC-Gehalt hat das entgegenge- 
setzte Vorzeichen wie das Kriteriumsgewicht fur die Codon usage. 
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Lokale Erkennungssequenzen bzw. biophysikalische Charakteristika spielen in der Zell- und 
Molekularbiologie eine entscheidende Rolle. Eine unbeabsichtigte Generierung entsprechen- 
der Motive innerhalb der Sequenz des synthetisierten Gens kann unerwiinschte Wirkungen 
haben. Zum Beispiel kann die Expression stark reduziert oder ganz unterdriickt werden; es 
kann auch eine fur den Wirtsorganismus toxische Wirkung entstehen. Bei der Optimierung 
der Nucleotidsequenz ist es daher wunschenswert, die unbeabsichtige Generierung solcher 
Motive auszuschlieflen. Im einfachsten Fall laBt sich die Erkennungssequenz durch eine gut 
charakterisierte Consensussequenz (z.B. Restriktionsenzym-Erkennungssequenz) unter Ver- 
wendung entsprechender IUPAC-Basensymbole darstellen. Filhrt man eine einfache Regular- 
Expressionssuche innerhalb der Testsequenz durch, so erhalt man fiir die Berechnung des 
entsprechenden Gewichts die Anzahl der aufgefundenen Positionen. LaBt man eine bestimmte 
Anzahl von Fehlstellen (mismatches) zu, muB die Anzahl der Fehlstellen bei einer erkannten 
Obereinstimmung bei der Ermittlung der Gewichtsfunktion beriicksichtigt werden, zum Bei- 
spiel derart, dafl das lokale Gewicht fiir eine Basenposition umgekehrt proportional zu der 
Anzahl der Basen ist, die einem IUPAC-Consensussymbol zugeordnet sind. In vielen Fallen 
ist die Consensussequenz jedoch nicht ausreichend eindeutig (vgl. zum Beispiel K. Quandt 
u.a., Nucleic Acid Research 23 (1995), 4878). In solchen Fallen kann man auf eine Matrizen- 
darstellung der Motive zuriickgreifen oder andere Erkennungsmethoden, z.B. mittels neuro- 
naler Netze, verwenden. 

Bei der bevorzugten Ausfiihrungsform der Erfindung wird fur jedes aufgefundene Motiv ein 
Wert zwischen 0 und 1 bestimmt, der im Idealfall die Bindungsaffmitat der gefundenen (po- 
tentiellen) Stelle bzw. deren biologische Aktivitat oder auch deren Erkennungssicherheit wi- 
derspiegelt. Fiir die Berechnung des Kriteriumsgewichts fiir DNS-Motive wird dieser Wert 
mit einem geeigneten Gewichtungsfaktor multipliziert und die Einzelwerte fiir jede aufgefun- 
dene Obereinstimmung werden addiert. 

Das Gewicht fiir unerwiinschte Motive geht mit dem umgekehrten Vorzeichen wie dasjenige 
fiir die Codon usage in die Gesamtgutefunktion ein. 

In der gleichen Weise kann in die Gewichtung das Vorhandensein bestimmter erwUnschter 
DNS-Motive, z.B. RE-Schnittsequenzen, bestimmte Enhancersequenzen oder immunstimu- 
latorische bzw. immunsupprimierende CpG-Motive einbezogen werden. Das Gewicht fiir 
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erwttnschte DNS-Motive geht mit dem gleichen Vorzeichen wie das Gewicht fUr die Codon 
usage in die Gesamtbewertung ein. 

Stark repetitive Sequenzabschnitte konnen zum Beispiel zu einer geringen genetischen Stabi- 
lity fUhren. Die Synthese repetitiver Abschnitte ist auch wegen der Gefahr von Fehlhybridi- 
sierung deutlich erschwert. GemaB der bevorzugten Ausfuhrungsform der Erfmdung geht 
daher in die Bewertung einer Testsequenz ein, ob diese an unterschiedlichen Stellen identi- 
sche Oder einander ahnliche Sequenzabschnitte enthalt. Das Vorhandensein entsprechender 
Abschnitte kann beispielsweise mit Hilfe einer Variante eines Dynamic Programming - Algo- 
rithms zur Generierung eines lokalen Alignments der einander ahnlichen Sequenzabschnitte 
festgestellt werden. Wichtig bei dieser Ausfuhrungsform der Erfmdung ist, daB der verwen- 
dete Algorithmus einen Wert generiert, welcher geeignet ist, den Grad der Ubereinstimmung 
und/oder die Lange der einander ahnlichen Sequenzabschnitte quantitativ zu beschreiben 
(Alignmentgewicht). Hinsichtlich weiterer Einzelheiten betreffend einen moglichen Algo- 
rithmus wird auf die oben genannten Lehrbucher von Gusfield oder Waterman bzw. M. S. 
Waterman, M. Eggert, J. Mol. Biology, (1987) 197, 723 bis 728, verwiesen. 

Zur Berechnung des Kriteriumsgewichts hinsichtlich der repetitiven Elemente summiert man 
die Einzelgewichte aller lokalen Alignments, bei denen das Alignmentgewicht einen be- 
stimmten Schwellenwert ubersteigt. Die Addition dieser Einzelgewichte ergibt das Kriteri- 
umsgewicht, welches die Repetitivitat der Testsequenz charakterisiert. 

GemaB einer Abwandlung der vorangehend beschriebenen Ausfuhrungsform wird nur der 
eine Bereich am Ende der Testsequenz, welcher das Variationsfenster sowie eine gewisse 
Anzahl weiterer Basen, z.B. 20 bis 30, umfaBt, daraufhin aberpriift, ob ein Teilabschnitt der 
Testsequenz in diesem Bereich einer anderen Stelle der Testsequenz in gleicher oder ahnli- 
cher Weise vorkommt. Dies ist schematisch in Figur 3 dargestellt. Die durchgezogene Linie 
in der Mitte stellt die gesamte Testsequenz dar. Die obere Linie stellt die KDS dar, wahrend 
der untere Bereich den Vergleichsbereich der Testsequenz darstellt, welcher mit der restlichen 
Testsequenz auf ubereinstimmende Sequenzabschnitte aberpriift wird. Die Oberpriifung der 
Testsequenzen auf Ubereinstimmende oder ahnliche Abschnitte des Vergleichsbereichs (vgl. 
Figur 3) mit der Dynamic Programming-Matrixtechnik ist in Figur 4a und 4b illustriert. Figur 
4a zeigt den Fall, daB ahnliche oder ubereinstimmende Sequenzabschnitte A und B in dem 
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Vergleichsbereich selbst vorhanden sind. Figur 4b zeigt den Fall, dafi ein Sequenzabschnitt B 
in dem Vergleichsbereich mit einem Sequenzabschnitt A aufierhalb des Vergleichsbereichs 
ubereinstimmt oder diesem ahnlich ist. 



Als Alternative zu der Summation von Einzelgewichten kann auch vorgesehen sein, dafi nur 
dasjenige Alignment, das zu dem hochsten Einzelgewicht ftthrt oder, allgemeiner, nur die 
Alignments mit den m grftBten Einzelgewichten, beriicksichtigt werden. 

Mit der vorangehend beschriebenen Gewichtung konnen sowohl ahnliche Sequenzen, die z.B. 
am Anfang und am Ende der Testsequenz vorhanden sind, als auch sogenannte Tandem- 
Repeats, bei denen sich die ahnlichen Bereiche beide am Ende der Sequenz befinden, erfaBt 
werden. 



Invers komplementare Wiederholungen konnen in der gleichen Weise wie einfache Wieder- 
holungen behandelt werden. Die potentielle Bildung von Sekundarstrukturen auf RNA-Ebene 
oder cruciformer Strukturen auf DNS-Ebene lafit sich an der Testsequenz durch das Vorhan- 
densein solcher invers komplementarer Wiederholungen (inverse Repeats) erkennen. Cruci- 
forme Strukturen auf DNS-Ebene k6nnen die Translation behindern und zu genetischer Insta- 
bility fUhren. Man vermutet, dafi die Bildung von Sekundarstrukturen auf RNA-Ebene sich 
negativ auf die Translationseffizienz auswirkt. Dabei sind insbesondere solche inverse Re- 
peats von Bedeutung, die Haarnadelschleifen bzw. cruciforme Strukturen ausbilden. Fehlhy- 
bridisierungen oder Haarnadelschleifen konnen sich auch bei der Synthetisierung jener aus 
Oligonucleotiden negativ auswirken. 



Die Oberprufung auf invers komplementare Wiederholungen erfolgt vom Grundsatz her ana- 
log zur Oberpriifung auf einfache Wiederholungen. Die Testsequenz bzw. der Vergleichsbe- 
reich der Testsequenz wird jedoch mit der invers komplementaren Sequenz verglichen. In 
einer Fortbildung kann die thermodynamische Stability bei dem Vergleich („alignment") 
beriicksichtigt werden, im einfachsten Fall durch die Verwendung einer Scoring Matrix. Da- 
bei wird z.B. ein Match CC bzw. GG aufgrund der stabileren Basenpaarung starker gewichtet 
als eine Oberweinstimmung TT oder AA. Entsprechend k6nnen auch Fehlstellen (mismat- 
ches) variabel gewichtet werden. Eine spezifischere Gewichtung kann dadurch erfolgen, dafi 
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Nearest-Neighbour-Parameter zur Berechnung der thermodynamischen Stabilitat verwendet 
werden, was allerdings den Algorithmus komplexer macht. Hinsichtlich eines moglichen Al- 
gorithmus wird beispielsweise auf L. Kaderali, A. Schliep, Bioinformatics 18 (10) 2002, 
1340 bis 1349 verwiesen. 



Bei alien Bewertungskriterien kann die Erfindung vorsehen, daJ3 die entsprechende Gewich- 
tungsfunktion positionsabhangig ist. Beispielsweise kann die Generierung einer RE- 
Schnittsequenz an einer bestimmten Stelle starker gewichtet werden oder Sekundarstrukturen 
konnen am 5'-Ende starker gewichtet werden, da sie dort starker inhibierend sind. Ebenso 
kann der Codonkontext, d.h. das oder die Vorganger- bzw. Nachfolgerkodons, berilcksichtigt 
werden. Weiterhin kann fur bestimmte Codons, deren Verwendung an den Domanengrenzen 
eine Rolle bei der cotranslatorischen Proteinfaltung spielt, ein Beitrag zur Gutefunktion vor- 
gesehen sein, der davon abhangt, ob dieses Codon naher an der Domanengrenze liegt oder 
nicht. Weitere Kriterien, die in die Gutefunktion eingehen konnen, sind z.B. biophysikalische 
Eigenschaften, wie die Steifigkeit oder die Kriimmung der DNS-Sequenz Je nach Anwen- 
dungsgebiet kdnnen auch Kriterien einflieBen, die mit weiteren DNS-Sequenzen assoziiert 
sind. Beispielsweise ist im Bereich der DNS-Vakzinierung entscheidend, daB die fur die Vak- 
zinierung verwendeten Sequenzen keine signifikante Ahnlichkeit mit den pathogenen Ele- 
menten des natvirlichen Virusgenoms aufweisen, urn unerwiinschte Rekombinationsereignisse 
sicher auszuschlieBen. In gleicher Weise sollten die fur gentherapeutische Zwecke verwende- 
ten Vektoren eine mSglichst geringe Ahnlichkeit zu Sequenzen des menschlichen Genoms 
aufweisen, urn einerseits homologe Rekombination in das menschliche Genom auszuschlie- 
Ben und andererseits ein selektives Abschalten von vitalen Genen in Transkriptom durch 
RNA-Interferenz-Phanomene (RNAI - Phanomene) zu vermeiden. Letzteres ist auch von all- 
gemeiner Bedeutung bei der Herstellung von rekombinanten Zellfabriken und insbesondere 
bei transgenen Organismen. 



ErfindungsgemaB kSnnen die verschiedenen Kriteriumsgewichte fur verschiedene Kriterien 
unterschiedlich in die Gesamtgewichtsfunktion eingehen. Dabei ist der durch das entspre- 
chende Kriterium maximal erreichbare Unterschied in dem Wert der Gutefunktion fur die 
gebildete Testsequenz wichtig. Einen hohen Anteil an bestimmten Kriteriumsgewichten ha- 
ben jedoch DNA-Basen, welche durch unterschiedliche KDS nicht geandert werden kfinnen, 
wie z.B. die in die Berechnung des durchschnittlichen GC-Gehalts miteinbezogenen Nucleo- 
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tide vor der KDS und die innerhalb synonymer Codons unveranderlichen Nucleotide Die in- 
dividuelle Gewichtung eines Kriteriums gegenttber anderen Kriterien kann daher davon ab- 
hangig gemacht werden, wie stark die Gttte der Testsequenz von der Zielvorgabe abweicht. Es 
kann sinnvoll sein, die Kriteriumsgewichte zur weiteren Verarbeitung in mathematischen 
Funktionen zu Berechnung der Gutefunktion aufzuspalten in einen Teil, der den bei Verwen- 
dung unterschiedlicher KDS variablen Anteil eines Kriteriums bemiflt und einen Teil, der die 
unveranderlichen Anteile bemiGt. 

Die vorangehend beschriebenen Ausftthrungsformen der Erfmdung werden nachfolgend an- 
hand zweier konkreter Beispiele weiter erlSutert. 



Beispiel 1 

Zu der nachfolgend gezeigten (fiktiven) Aminosauresequenz ASSeql soli die zugehorige op- 
timale DNS-Sequenz ermittelt werden. Als Referenz dient eine konventionelle Riickttberset- 
zung mit Optimierung auf optimale Codon-Usage. 



ASSeql: 

1 2 3 4 5 6 7 
E Q F I I K N 

GAA CAG TTT ATT ATT AAA AAC 
GAG CAA TTC ATC ATC AAG AAT 
ATA ATA 



8 9 10 11 12 13 14 
M F I I K N A 

ATG TTT ATT ATT AAA AAC GCG 
TTC ATC ATC AAG AAT GCC 
ATA ATA GCA 

GCT 



Folgende Kriterien werden der Optimierung zugrunde gelegt: 

- Die Codon usage soli auf die Codon usage von E. Coli Kl 2 optimiert werden. 

- Der GC - Gehalt soli mOglichst nahe bei 50 % liegen. 
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- Repetitionen sollen mbglichst ausgeschlossen werden 

- Die Nla III Erkennungssequenz CATG soli ausgeschlossen werden 

Als Bewertungsfunktion fur die Codon usage wird folgende Funktion verwendet: 
CUScore = (CU) 

wobei (CU) bei diesem Beispiel das arithmetische Mittel der Relative adaptiveness tiber den 
Codonpositionen der Testsequenz ist. 

Zur Darstellung der Codon usage eines Codons wird zur besseren Vergleichbarkeit der Co- 
dongute verschiedener Aminosauren das jeweils beste Codon fur eine bestimmte Aminosaure 
gleich 100 gesetzt und die schlechteren Codons entsprechend ihrem tabellierten prozentualen 
Anteil reskaliert. Ein CUScore von 100 bedeutet also, daB ausschlieBlich die fur E. Coli K12 
optimalen Codons verwendet werden. 

Das Gewicht fur den prozentualen GC-Gehalt wird wie folgt berechnet: 
GCScore = \{GC) - GC Wmlteh |" * 0,8 

Zur Ermittlung der Einzelgewichte der Alignments (Alignmentscore) wird ein optimales lo- 
kales Alignment der Testsequenz mit einem Teilbereich der Testsequenz, der maximal die 
letzten 36 Basen der kompletten Testsequenz umfasst, unter Ausschluss des Identitatsalign- 
ments (Alignment des vollstandigen Teilbereiches mit sich selbst) generiert (vgl. Fig. 3, 4a, 
4b). 

Als Bewertungsparameter fur eine Basenposition zur Berechnung der Dynamic-Programming 
Matrix werden dabei verwendet: 



Ubereinstimmung (Match) = 1; 
Fehlpaarung (Mismatch) = -2; 
LUcke (Gap) = -2. 
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Das entsprechende Kriteriumsgewicht wird durch eine Potenz des optimalen Alignment- 
Scores in dem uberpriiften Bereich der Testsequenz festgelegt: 

REPScore = {Score AUgnment ) 3 
Fur jede gefundene CATG-Sequenz wird ein Sitescore von 100000 vergeben. 
Die Gesamtgutefunktion GesScore ergibt sich 

GesScore = CUScore - GCScore - REPScore - SiteScore 
Die KDS-Lange m betragt 3 Codons (9 Basen). 

Eine Optimierung lediglich auf optimale Codon-Usage resultiert in folgender Sequenz: 

! 2 3 4 5 6 7 8 9 10 11 12 13 14 

E q_ F I I K N M F I I K N A — 

GAA CAG TTT ATT ATT AAA AAC ATG TTT ATT ATT AAA AAC GCG 

Sie ist durch folgende Eigenschaften charakterisiert: 

Stark repetitiv, verursacht durch die zweimalig erscheinende Aminosauresequenz 
F I I K_N (gezeigt ist das repetitive Element mit dem hochsten Score (18)): 

19 AACATGTTTATTATTAAAAAC 

DM I I I I I I I I I I I I I I I I 
2 AACA-GTTTATTATTAAAAAC 

GC-Gehalf.21,4% 

Die Nla III Erkennungssequenz CATG ist vorhanden 
Durchschnittliche Codon-Usage: 100 
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Wird die Optimierung nach dem erfindungsgemaBen Algorithms mit den oben genannten 
Bewertungsfunktionen und Parametern vorgenommen, so erhalt man folgende DNS-Sequenz: 

x 2 3 4 5 6 7 8 9 10 11 12 13 14 

E q F I I K N M F I I K N A_ 

GAA CAG TTC ATC ATC AAA AAT ATG TTT ATT ATC AAG AAC GCG 



Sie ist durch folgende Eigenschaften charakterisiert: 

Kaum repetitiv (das nachfolgend gezeigte Alignment mit dem hSchsten Beitrag hat 
einen Score 6) 

11 TCATCA 
I I I I I I 
8 TCATCA 



GC-Gehalt: 31,0% 

Die Nla III Erkennungssequenz CATG ist vermieden worden 
Durchschnittliche Codon-Usage: 88 

Bei dem erfindungsgemaBen Optimierungsergebnis wurde an fttnf Aminosaure-Positionen 
nicht das hinsichtlich der Codon usage optimale Codon gewahlt. Die erfindungsgemafie auf- 
gefundene Sequenz stellt jedoch eine optimale Balance der unterschiedlichen Anforderungen 
in Bezug auf Codon-Usage, GC-Gehalt und ideale Sequenzeigenschaften (Vermeidung von 
Repetitionen) dar. 

Bei den Aminosauren mit den Nummern 3,4,5 ist der hShere GC-Anteil der hinsichtlich der 
Codon usage schlechteren Codons der Grund fiir die Wahl. An Position 6 uberwiegt jedoch 
beim Vergleich der Codons AAA und AAG die wesentlich bessere Codon usage des AAA 
Codons, obwohl die Wahl des AAG Codons zu einem besseren GC-Score fuhren wUrde. Bei 
Bildung der KDS an Basenposition 13 wird filr die Aminosaure Nr. 7 noch das Codon AAC 
bevorzugt, da bei einer FenstergrSBe fur die KDS von 3 Codons noch nicht erkennbar ist, daB 
diese Wahl zu Bildung des zu vermeidenden DNS-Motivs CATG fiihren wird (fur Methionin 
ist der genetische Code nicht degeneriert, d.h. es gibt nur ein Codon zur Expression von Me- 
thionin). Bei der Bildung der KDS an Basenposition 16 wird dies jedoch bereits erkannt und 
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folgerichtig das Codon AAT gewahlt. Bei der Wahl der Codons fur die Aminosauren 9 bis 13 
spielt neben Codon-Usage und GC-Gehalt auch die Vermeidung einer repetitiven DNS- 
Sequenz. Aufgrund der identischen Aminosauresequenzen der Aminosauren Nr. 3 bis 7 und 9 
bis 13 eine entscheidende Rolle. Aus diesem Grunde werden fur die Aminosauren 9 und 10 
im Gegensatz zu vorher (Asr. 3,4) die Codons TTT und ATT bevorzugt. 

Die nachfolgende Tabelle illustriert die einzelnen Schritte des Algorithmus, die zu dem oben 
angegebenen Optimierungsergebnis gefuhrt haben. Sie ermoglicht es, den Ablauf des Algo- 
rithmus Schritt fur Schritt nachzuvollziehen. Fur jede Startposition werden dabei detailliert 
alle von der Software gebildeten Kombinations-DNS-Sequenzen (KDS) aufgelistet. 



Zu jeder mfiglichen KDS werden folgende Angaben gemacht: 

- die aus der jeweiligen KDS und der bereits optimierten DNS-Sequenz gebildete Test- 
sequenz, welche zur Evaluierung der KDS herangezogen wird, 

- die Scores, welche fUr Codon usage, GC-Gehalt, Repetitivitat und aufgefundenen 
DNS-Sites ermittelt wurden (CU, GC, Rep, Site) 

- das fur die jeweilige Testsequenz ermittelte repetitive Element mit dem hochsten 
Alignment-Score, 

- der ermittelte Gesamtscore. 



Die KDS sind dabei nach fallendem Gesamtscore sortiert, d.h. das erste Codon der ersten ge- 
zeigten KDS wird an die bereits optimierte DNS-Sequenz angefilgt. 
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KDS-Startposition 10 bet Aminosaure 
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0 


0,0 




mum 


30,0 


ATAAAGAAC 49 19 
GAACAGTTCAT CAT AAAGAAC 


0 


0,0 




m 


30,0 


ATAAAGAAT 43 27 

GAACAGTTCATCATAAAGAAT 


0 


0,0 




_j 


a "■° 



KDS^Siarxposition 1 6 bei Aminosaure 
CU GC Site Rep 



KDS 

Testsequenz 



AAAAATATG 94 26 
GAACAGTTCATCATCAAAAAT ATG 



0,0 



6 K 



Alignment 



Gesamt-Score 



68,0 
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AAGAACATG 77 13 200000 0,0 

GAACAGTTCATCATCAAGAACATG 



KDS-Startposition 19 bei Aminosaure 
KDS CU GC Site Rep 

Tcsucqucnt 



7 N 



Alignment 



ATGTTCATT 92 35 0 
GAACAGTrCATCATOAAJATATGTrCATT 



28 



0 12,5 



KDS-Startposition 25 bei Aminosaure 
KDS CU GC Site Rep 



9 F 



Alignment 



Gesamt-Score 




45,0 



GAA C AGTTCATCAT CAAAAAT ATGTTCATC GTT — 1 — 


ATGTTTATA 71 42 0 

GAA CAGTTCAT CAT CAAAAAT ATGTTT AT A 


0,0 


sua 


29.0 


ATGTTCATA 63 35 0 
GAACAGTT CATCAT CAAAAAT ATGTT CATA 




MI _ 





Gesamt-Score 



42 



0,0 



GAACAGTTCATCAT CAAAAAT ATGTTCATT ATT GTT CAT \ , ■ _ 


TTTATCATC 83 35 ~~ 0 12,5 

GAA CAGTT CATCAT CAAAAAT ATGTTT ATCA TC 


mmu 


4U.0 


TTTATTATT 100 49 0 * 2 ' 5 
GAA CAGTT CATCAT CAAAAAT ATGTTTATT ATT 




38,0 


TTCATTATC 86 35 0 12,5 

GAACZAGTT CATCAT CAAAAAT ATGTT CATTATC ' 


mm 


38,0 ■ 


TTCATCATT 86 35 0 17,4 
GAA CAGTTCATCATCAAAAATATGTT CATC ATT 


HI 


■ 
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KDS-Startposition 28 bei Aminosaure 



CU GC Site Rep 



-10 I 



KDS 

Tesiscquenz 



ATTATCAAA. 94 49 0 12,5 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAA 



ATCATTAAA 94 49 0 *£f 5 

GAACAGTTCATCATCAWVAATATGTTTATCArrAAA 



ATTATAAAG 49 49 0 0 0 

GAA CAGTTC ATCATCAAAAATATGTTTATT ATAAAG 



Alignment 



mm 



WMWl 



Gesamt-Score 



32,0 



32,0 
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ATAATTAAG . 49 49 0 0,0 V 
GAACAGTTCATOVTCAAAAATATGTTTATAATTAAG fd 


ssa 


ATCATAAAG 43 42 0 12,5 

GAACAGTTCATCATCAAAAATATGTTTATCATAAAG 


Gl 

11 


HI 


-12,0 


aTaataaaa 43 57 0 0,0 Tj 

GAA CAGTTC ATC ATCAAAAATATGTTT ATAAT AAAA fd 


IS 


-14,0 


ataataaag 20 . 49 0 0,0 ' r 9 

GAACAGTTCATCATCAAAAATATGTTTATAATAAAG . 


S3 


-29,0 



KDS-Startposition 3 i bci Aminosaure 
KDS CU GC Site Rep 

Tests cqucnz 



11 I 



Alignment 



Gesamt-Score 



ATCAAGAAC 71 42 0 0,0 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAAC 



mm 



29,0 



ATTAAAAAC 100 57 0 14,9 

GAACAGTTCATCATCAAAAATATGTTTATTATTAAAAAC 



I^JStcaaaI- a* a* :cr ' - *!' - :k 



28,0 



ATCAAAAAC 94 49. 0 17,4 

gaacagttcatc^tcaaaaatatgtttattatcaaaaac 



28,0 



ATTAAAAAT 94 64 0 14,9 

gaacagttcatcatcaaaaatatgtttattattaaaaat 



15,0 



ATTAAGAAC 77 49 0 14,9 

gaacagttcatcatcaaaaatatgtttattattaagaac 



13,0 



ATCAAAAAT 88 57 0 20,0 

gaacagttcatcatcaaaaatatgtttattatcaaaaat 



ATCAAGAAT 65 49 0 12,5 

gaacagttcatcatcaaaaatatgtttattatcaagaat 



'ATTA' 



mwm 



11,0 



3,0 



ATAAAGAAC 49 49 0 0,0 

GAACAGTTCATCATCAAAAATATGTTTATTATAAAGAAC 



0,0 



ATTAAGAAT 71 57 0 14,9 

GAACAGTTCATCATCAAAAATATCTTTATTATTAAGAAT 



-1.0 



ATAAAAAAC 71 57 0 14,9 

GAACAGTTCATCATCAAAAATATGTTTATTATAAAAAAC 



IMMSEBSSSSm 



-1.0 



ATAAAAAAT 65 64 0 14,9 

GAACAGTTCATCATCAAAAATATGTTTATTATAAAAAAT 



-14,0 



ATAAAGAAT 43 57 0 0,0 

GAACAGTTCATCATCAAAAATATGTTTATTATAAAGAAT 



mm 



-14,0 



KDS-Startposition 34 bei Aminosaure 



12 K 



KDS 

Tctuequenz 



CU GC Site Rep 



Alignment 



Gesamt-Score 



AAGAACGCG 77 28 0 0,0 

GAA CAGTTC AT CAT CAAAAAT ATGTTT ATT ATCAAGAACGCG 



49,0 



AAAAACGCG 100 35 0 17,4 

G AA CAGTTCAT CAT CAAAAAT ATGTTTATT ATCAAAAACGCG 



48,0 



AAGAACGCC 69 28 0 0,0 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAACGCC 



a 



41,0 



AAAAACGCC 92 35-. 0 17,4 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAAAACGCC 



40,0 



AAAAATGCG 94 42 0 20,0 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAAAATGCG 



SUB 



32,0 



28,0 



■mwm 



27,0 



^agaacgca 63 35 0 0,0 

g aacagttcatcat caaaaat atgtttatt atcaagaacg ca 



&AAAACGCA 86 42 0 17,4 

^AACAGTTCATCATCAAAAATATGTTTATTATCAAAAACGCA 
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AAAAAJGCC 86 42 0 20,0 

GAACAGTTCATCATCAAAAATATGTTT ATT ATCAAAAATGC C 


BBSS 


m 


AAGAACGCT 59 35 0 0,0 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAACGCT 






24,0 


~AAGAATGCG 71 35 0 12,5 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAATGCG 




mi 


23,0 


AAAAACGCT 81 42 0 17,4 

GAACAGTTGATCATCAAAAATATGTTTATTATCAAAAACGCT 


mm 




AAGAATGCC 63 35 0 12,5 HFiFflff 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAATGCC GTTCATCATCAi 


m 


AAAAATGCA 80 49 0 20,0 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAAAATGCA 




mu- 


AAAAATGCT 75 49 ■ 0 20,0 ffitCTO 

GAACAGTTGATCATCAAAAATATGTTTATTATCAAAAATGCT 6ftcAfCAtCX 


ms 


AAGAATGCA 57 42 0 12,5 
GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAATGCA 


W3SSSP& 


2.0 


AAGAATGCT 53 42 0 1 2,5 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAATGCT 


mm 


08 ' 


-2,0 
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Beispiel 2 



Bei diesem Beispiel wird die Optimierung von GFP auf Expression in E. Coli betrachtet. 
Herkunft der AminosSuresequenz: 

DEFINITION Aequorea victoria green-fluorescent protein mRNA, complete cds . 
ACCESSION M62654 

MSKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTTGKLPVPWPTLVTTFSYGVQCFSRYP 
DHMKQHDFFKSAMPEGYVQERTIFYKDDGNYKSRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKMEYNYNSHNV 
YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSTQSALSKDPNEKRDHMILLEFVT 
AAGITHGMDELYK 

Verwendete Codon-Usage-Table: Escherichia coli K12 
Herkunft : Codon usage Database auf wvvrw.kazusa.or.jp/codon 

Nachfolgend bedeuten: 

<CU> : durchschnittliche renormierte Codon-Usage der KDS (15 Basen lang) 

<GO : durchschnittlicher prozentualer GC-Gehalt der letzten 35 Basen der Testsequenz 

GCwunsch: Angestrebter GC-Gehalt 

Die GroBe des Fenster, auf dem der GC-Gehalt flir die graphische Darstellung in Fig. 5b bis 
8b berechnet wurde, betrug 40 Basen 

Fig. 5a und 5b zeigen die Ergebnisse flir die Gutefunktion: 
Score = {CU ) 

Fig. 6a und 6b zeigen die Ergebnisse fur die Gutefunktion 



Score = {CU > - |<GC > - GC 



Wunsch 
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Fig. 7a und 7b zeigen die Ergebnisse fttr die GUtefiinktion 
Score =(CU)- \{GC > - GC Wumeh f 3 x 1 .5 
Fig. 8a und 8b zeigen die Ergebnisse fur die GUtefiinktion 
Score =(CU)- \(GC > - GC Wunseh f 3 x 5 

Die Figuren 5 bis 8 verdeutlichen den Einfluft der vinterschiedlichen Gewichtung zweier Op- 
timierungskriterien auf das Optimierungsergebnis. Ziel ist, die GC-Gehaltsverteilung Uber die 
Sequenz zu glatten und den Wert 50% anzunahem. In dem in Fig. 5a und 5b gezeigten Fall 
wurde lediglich auf die optimale Codon-Usage optimiert, was in einer sehr heterogenen und 
vom Ziel-Gehalt teilweise stark abweichenden GC-Verteilung resultiert. In dem Fall der Fig. 
6a und 6b verbindet sich in idealer Weise eine Glattung des GC-Gehaltes auf einen Wert urn 
50% mit einer guten bis sehr guten Codon-Usage. Die Falle der Fig. 7a und 7b bzw. 8a und 
8b verdeutlichen schlieBlich, daB eine weitere GC-Gehalts-Optimierung zwar mdglich ist, 
aber mit einer stellenweise schlechten Codon-Usage erkauft werden muB. 



Beispiel 3 

Die Effizienz des erfindungsgemaBen Verfahrens wird durch das nachfolgende Ausfuh- 
rungsbeispiel illustriert, bei dem Expressions-Konstrukte mit adaptierten und RNA- und 
Codon-optimierten Leserahmen hergestellt wurden und bei dem die jeweilige Expression 
des Proteins quantifiziert wurde. 

Ausgewahlte Cytokin- und Chemokingene aus unterschiedlichen Organismen (Mensch: 
IL15, GM-CSF und Maus: GM-CSF, MlPlalpha) wurden zur Herstellung von Expressi- 
onsplasmiden in das Plasmid pcDNA3.1(+) (Invitrogen) kloniert. Die Leserahmen der ent- 
sprechenden Gene wurden unter Verwendung einer Kodonwahl, wie sie in humanen bzw. 
murinen Zellen bevorzugt zu finden ist, und des hier beschriebenen Optimierungsverfah- 
rens auf eine maximale Expression in den betreffenden Organismen optimiert. Die entspre- 
chenden Gene wurden kunstlich aufgebaut, nachdem die Aminosauresequenz der Gene zu- 
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nSchst in eine Nukleotidsequenz, wie sie durch das beschriebene Verfahren unter Beriick- 
sichtigung verschiedener Parameter errechnet wurde, ubersetzt wurde. 

Fur die Optimierung der Cytokingene wurden folgende Parameter zugrundegelegt: 

Zur Bewertung der Testsequenz wurde folgende GUtefunktion verwendet: 

GesScore = CUScore - GCScore - REPScore - SEKscore - SiteScore 

Die KDS-Lange betrug 5 Kodons. 

Die Einzelscores sind dabei wie folgt definiert: 

a) CUScore = <CC/> 

wobei <CU> den arithmetischen Mittelwert der Relative Adaptiveness-Werte der KDS- 
Kodons, multipliziert mit 100, darstellt, d.h. zur Darstellung der Codon usage eines Codons 
wird zur besseren Vergleichbarkeit der Codongute verschiedener Aminosauren das jeweils 
beste Codon ftir eine bestimmte Aminosaure gleich 100 gesetzt und die schlechteren Codons 
entsprechend ihrem tabellierten prozentualen Anteil reskaliert. Ein CUScore von 100 bedeu- 
tet also, daB ausschlieBlich die flir das Expressionssystem optimalen Codons verwendet wer- 
den. Bei den zu optimierenden Cytokin Genen wurde der CUScore auf Grund der in der 
nachfolgenden Tabelle aufgefuhrten Codonhaufigkeiten beim Menschen {Homo sapiens) er- 
rechnet. In den Optimierungen werden ausschlieBlich Kodons verwendet, deren relative Ad- 
aptiveness groBer als 0.6 ist. 



AmAcid 


Codon 


Frequency 


AmAcid 


Codon 


Frequency 


Ala 


GCG 


0.10 


Leu 


TTG 


0.12 




GCA 


0.23 




TTA 


0.08 




GCT 


0.26 




CTG 


0.38 




GCC 


0.40 




CTA 


0.09 


Arg 


AGG 


0.20 




CTT 


0.13 


AGA 


0.20 




CTC 


0.20 




CGG 


0.20 


Lys 


AAG 


0.56 




CGA 


0. 11 




AAA 


0.44 




CGT 


0.08 


Met 


ATG 


1.00 




CGC 


0.19 


Phe 


TTT 


0.45 


Asn 


AAT 


0.45 




TTC 


0.55 




AAC 


0.55 


Pro 


CCG 


0.11 


Asp 


GAT 


0.46 




CCA 


0.27 


GAC 


0.54 




CCT 


0.28 


Cys 


TGT 


0.45 




CCC 


0.34 




TGC 


0.55 


Ser 


AGT 


0.15 


End 


TGA 


0.61 




AGC 


0.24 




TAG 


0. 17 




TCG 


0.05 




TAA 


0.21 




TCA 


0.15 


Gin 


CAG 


0.73 




TCT 


0.18 ! 
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AmAcid Codon Frequency 


Am Arid Codon Frequency 


( CAA 0.27 i 


TCC 0.22 


Glu GAG 0.58 
GAA 0.42 


Thr ACG 0.11 
ACA 0.29 
ACT 0.24 
ACC 0.37 


Gly GGG 0.25 
GGA 0-25 
GGT 0.16 
GGC 0.34 


Tro TGG 1.00 


Tyr TAT 0.44 
TAC 0.56 


His CAT 0.41 
1 CAC 0.59 


Val GTG 0.45 
GTA 0.12 
GTT 0.18 
GTC 0.24 1 


He ATA 0.18 
ATT 0.35 
ATC 0.47 



b} GCScore =\(GC)-GC 

mit <GC> : durchschnittlicher prozentualer GC-Gehalt der letzten 35 Basen der 
Testsequenz 

GCwunsch: Angestrebter prozentualer GC-Gehalt von 60% 



c) REPScore = (Score m 



Alignment ,max 



) 



Zur Ermittlung der Einzelgewichte der Alignments (Alignmentscore) wird ein lokales Align- 
ment eines endstandigen Teilbereiches der Testsequenz, der maximal die letzten 35 Basen der 
kompletten Testsequenz umfasst, mit dem davorliegenden Bereich der Testsequenz durchge- 
ruhrt. 

Als Bewertungsparameter fiir eine Basenposition werden dabei verwendet: 
Ubereinstimmung = 10; 
Mismatch = -30; 
Lttcke (Gap) = -30. 

Das entsprechende Kriteriumsgewicht REPScore ist defmiert als der hochste erreichte Align- 
ment-Score ScoreMignmenmax, in dem uberpruften Bereich der Testsequenz. Ist der Wert von 
Score Allgftmenl , max < 100, so wird REPScore = 0 gesetzt 

d) SEKScore = {Score ImAhgnme mmax ) 

Das Kriteriumsgewicht SEKScore gewichtet inverse Alignments in der erzeugten Sequenz. 
Zur Ermittlung des Einzelgewichts eines Alignments (Score invAHgnmem, max) wird ein lokales 
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Alignment des Invers-komplementaren der Testsequenz mit dem Teilbereich der Testsequenz 
durchgefiihrt, der maximal die letzten 35 Basen der kompletten Testsequenz umfaBt. 

Als Bewertungsparameter fur eine Basenposition werden dabei verwendet: 
Ubereinstimmung = 10; 
Mismatch = -30; 
Liicke (Gap) = -30. 

Das entsprechende Kriteriumsgewicht SEKScore ist definiert als der hochste erreichte Align- 
ment-Score Scorej nV Aii g nment,max in dem uberpruften Bereich der Testsequenz. Ist der Wert von 
Score invAiignment,max< 100, so wird SEKScore = 0 gesetzt. 

e) Sitescore 

In der folgenden Tabelle sind diejenigen Sequenzmotive aufgelistet, die bei der Ermittlung 
des SITEScore beriicksichtigt wurden. Insoweit in der Rubrik „REVERSE" ein y aufgeflihrt 
ist, wurde sowohl das angegebene Sequenzmotiv als auch das zugehorige invers- 
komplementare Sequenzmotiv beriicksichtigt. Falls in dieser Rubrik ein n angegeben ist, wur- 
de nur das angegebene Sequenzmotiv, nicht aber das hierzu invers-komplementare Sequenz- 
motiv beriicksichtigt. Fur jedes Auftreten der in der Tabelle aufgefuhrten Sequenzmotive 
(bzw. deren Invers-komplementarem, falls REVERSE=y) innerhalb der letzten 35 Basen der 
Testsequenz wird das Kriteriumsgewicht SITEScore um den Wert 100000 erhoht. 









Kpn! 


GGTACC 


n 


Sad 


GAGCTC 


n 


Eukaria: (consensus) branch point 


YTRAY 


n 


Eukaria: (consensus) Spice Acceptor 


YYYYYYYYYN ( 1 , 1 0)AG 


n 


Eukaria: (consensus) Splice-DonoM 


RGGTANGT 


n 


Eukaria: poly(A)-site (1) 


AATAAA 


n 


Eukaria: poly(A)-site (2) 


I I I I IAIA 


n 


Eukaria: poiy(A)-site (3) 


TATATA 


n 


Eukaria: poly(A)-site (4) 


TACATA 


n 


Eukaria: poly(A)-site (5) 


TAGTAGTA 


n 


Eukaria: poly(A)-site (6) 


ATATATTT 


n 


Eukaria: (consensus) Splice-Donor2 


ACGTANGT 


n 


Eukaria: (Cryptic) Splice-Donorl 


RGGTNNGT 


n 


BsmBI 


CGTCTC 


y 


Bbsl 


GAAGAC 


y 


Eukaria: (Cryptic) Splice-Donor2 


RGGTNNHT 


n 


Eukaria: (Cryptic) Splice-Donor3 


NGGTNNGT 


n 


Eukaria: RNA inhib. Sequenz 


WWWATTTAWWW 


n 
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GC-Stretch 


SSSSSSSSS 


n 


Chi-Sequenz 


GCTGGTGG 


y 


Repeats 


RE (\w{9,})\1 


n 


Prokaria: RBS-Entry (2) 


AAGGAGN(3,13)ATG 


y 


Prokaria: RBS-Entry (1) 


AGGAGGN(3,13)ATG 


y 


Prokaria: RBS-Entry (3) 


TAASGAGGTN(3, 1 3)DTG 


y 


Prokaria: RBS-Entry (4) 


AGAGAGN(3,13)ATG 


y 


Prokaria: RBS-Entry (5) 


AAGGAGGN(3.13)ATG 


y 


Prokaria: RBS-Entry (6) 


AACGGAGGN(3, 1 3)ATG 


y 


Prokaria: RBS-Entry (7) 


AAGAAGGAAN(3, 1 3)ATG 


y 


Hindlll 


AAGCTT 


n 


NotI 


GCGGCCGC 


n 


BamHI 


GGATCC 


n 


EcoRI 


GAATTC 


n 


Xbal 


TCTAGA 


n 


Xhol 


CTCGAG 


n 



Zur Subklonierung wurden entsprechende singulSre Restriktionsschnittstellen eingefugt. 
Die kompletten Nukleotidsequenzen sind im Anhang angegeben. Die so modifizierten Se- 
quenzen wurden als vollsynthetische Gene hergestellt (Geneart, Regensburg). Die resultie- 
renden kodierenden DNA Fragmente wurde unter Verwendung der Restriktionsschnitt- 
stellen Hindlll und NotI in den Expressionsvektor pcDNA3.1(+) unter die transkriptionelle 
Kontrolle des Cytomegalo-Virus (CMV) early promotor/enhancer gestellt. Zur Herstellung 
analoger, jedoch in ihrer Kodonwahl unveranderten Expressionsplasmiden (wildtyp Refe- 
renzkonstrukte), wurden die kodierenden Regionen (c-DNA Konstrukte wurden von RZPD 
bezogen) nach PCR Amplifikation mit entsprechenden Oligonukleotiden ebenfalls unter 
Verwendung der Hindlll und NotI Restriktionsschnittstellen in pcDNA3. 1(+) kloniert. 

Zur Quantifizierung der Cytokin/Chemokin-Expression wurden humane Zellen mit den je- 
weiligen Expressionskonstrukten transfiziert und die Proteinmenge in den Zellen mid im 
Zellkuituruberstand mittels kommerzieller ELIS A Testkits gemessen. 

Samtliche Zellkulturprodukte waren von Life Technologies (Karlsruhe). Saugerzelllinien 
wurden bei 37°C und 5% CO2 kultiviert. Die humane Lungenkarzinomzelllinie H1299 
wurden in Dulbecco's Modifiziertem Eagle Medium (DMEM) mit L-Glutamin, D-Glucose 
(4,5 mg/ml), Natriumpyruvat, 10% inaktiviertem fotalem Rinderserum, Penicillin (100 
U/ml) und Streptomycin (100 ^ig/ml) kultiviert. Die Zellen wurden nach Erreichen der 
Konfluenz im Verhaltnis 1:10 subkultiviert. 

2,5 x 10 5 Zellen wurden in 6-well Zellkulturschalen ausgesSt und nach 24 h durch Calci- 
umphosphat Koprazipitation (Graham und Eb, 1973) mit 15 ng Expressions-Plasmiden 
oder pcDNA 3.1 Vektor (Mock-Kontrolle) transfiziert. Zellen und Kulturttberstande wur- 
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den 48 h nach der Transfektion geerntet. Unlosliche Bestandteile in den Uberstanden wur- 
den 10 min bei lOOOOxg und 4°C abzentrifugiert. Die transfizierten Zellen wurden zweimal 
mit eiskaltem PBS (10 mM Na 2 HP0 4 , 1,8 mM KH 2 P0 4 , 137 mM NaCl, 2,7 mM KC1) ge- 
waschen, mit 0,05% Trypsin/EDTA abgelost, 10 Min. bei 300xg abzentrifugiert und in 100 
Hi Lyse-Puffer (50 mM Tris-HCl, pH 8,0, 150 mM NaCl, 0,1% SDS (w/v), 1% Nonidet 
P40 (v/v), 0,5% Na-deoxycholat (w/v)) 30 min auf Eis lysiert. Unlosliche Bestandteile des 
Zelllysates wurden 30 min bei lOOOOxg und 4°C abzentrifugiert. Die Gesamtproteinmenge 
des Zelllysat-Uberstandes wurde mit dem Bio-Rad Protein Assay (Bio-Rad, Munchen) 
nach Herstellerangaben bestimmt. 

Die spezifischen Proteinkonzentrationen in den Zelllysaten und Zellkulturiiberstanden 
wurden durch ELISA Tests (BD Pharmingen fur IL15 imd GM-CSF; R&D Systems filr 
MIP1 alpha) quantifiziert. Entsprechende Mengen an Gesamtprotein des Zelllysates (0,2 bis 
5 |ig) und Verdunnungen des Oberstandes (unverdunnt bis 1 :200) wurden nach den Anga- 
ben des Herstellers ausgewertet und die Gesamtkonzentration an Hand einer Eichkurve be- 
rechnet. Fig. 9 zeigt eine representative Eichkurve fur die Berechnung der Maus- 
MIPlalpha-Konzentration. Rekombinantes Maus-MIPl alpha wurde nach den Angaben des 
Herstellers durch serielle zweifach- Verdunnungen auf ansteigende Konzentrationen einge- 
stellt und parallel mit den Proben aus den Zellkulturexperimenten in den MIP1 alpha spezi- 
fischen ELISA Test eingesetzt. Die Konzentrationen (X-Achse) wurden gegen die gemes- 
senen O.D. Werte (450 nm, Y-Achse) aufgetragen und unter Verwendung von MS Excel 
wurde eine Regressionsgerade errechnet (der Regressionskoeffizient R ist angegeben). 

Erganzend dazu wurden ftir geeignete Proben ein Nachweis durch Westernblotanalysen 
durchgefuhrt. Filr GM-CSF Proben wurden Gesamtproteine aus je 1 ml Zellkulturiiberstand 
durch Na-DOC (Natrium deoxycholat) und TCA (Trichloressigsaure) prazipitiert und in 60 
|il 1-fach Probenpuffer (Laemmli, 1970) resuspendiert. Fur die Analysen wurden jeweils 
20 \x\ eingesetzt. Fur den IL15 Nachweis wurden 25 \xg Gesamtprotein aus Zelllysaten 
verwendet. Die Proben wurden 5 min auf 95°C erhitzt, uber ein 15 %-iges 
SDS/Polyacrylamidgel aufgetrennt (Laemmli, 1970) auf eine Nitrocellulose-Membran 
elektrotransferiert (Bio-Rad) und mit entsprechenden monoklonalen Antikorpern (BD 
Pharmingen) analysiert, mittels einem sekundaren, AP- (Alkalische Phosphatase) gekop- 
pelten Antikorper detektiert und durch chromogene FSrbung nachgewiesen. Fig. 12A bis C 
zeigen die Expressionsanalyse des synthetischen Leserahmen und der Wildtyp- 
Leserahmen. HI 299 Zellen wurden mit den angegebenen Konstrukten transfiziert und die 
Proteinproduktion wurde durch konventionelle Immunoblot Analysen nachgewiesen. Da- 
bei zeigt Fig. 12 A die Analyse der ZellkulturiiberstSnde nach Na-Doc/TCA PrSzipitation 
von humanen GM-CSF transfizierten HI 299 Zellen, Fig. 12B die Analyse der Zellkultur- 
uberstande nach Na-Doc/TCA PrSzipitation von murinen GM-CSF transfizierten H1299 
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Zellen, Fig. 12C die Analyse der Zelllysate von humanen IL15 transfizierten H1299 Zellen. 
Molekulargewichte (precision plus protein standard, Bio-Rad) sowie Auftrag der wildtyp, 
synthetischen und Mock-transfizierten Proben sind angegeben. Mock-Transfektion ent- 
spricht einer Transfektion mit ursprunglichem pcDNA3.1 Plasmid. 

Eine Ubersicht der Expressionsunterschiede mit Mittelwerten aller ELISA-ausgewerteten 
Experimente ist in der nachfolgenden Tabelle angegeben. Die Angaben entsprechen dem 
prozentualen Unterschied der Gesamtproteinmenge (Summe aus Proteinmenge in Zelllysat 
und Oberstand) im Verhaltnis zum entsprechenden wildtyp Konstrukt (wt entspricht 
100%). 

Vergleich der Gesamtproteinmengen nach Transfektion von wildtyp vs. synthetischen 
Expressionskonstrukten 



Konstrukt 


Organ ism us 


MW* 


StdDev** 


n= 


GM-CSF 


Mensch 


173% 


53% 


4 


IL15 


Mensch 


181% 


37% 


3 


GM-CSF 


Maus 


127% 


12% 


2 


MIP1 alpha 


Maus 


146% 


48% 


2 



* Prozentualer Mittelwert der Proteinmenge aus n Versuchen (in Doppelansatzen) im 
Verhaltnis zur Gesamtproteinmenge des entsprechenden wildtyp Konstruktes 

** Standardabweichung 

Fig. 1 0 zeigt in Form eines Balkendiagrammes die relative Proteinmenge in Bezug auf das 
jeweilige Wildtyp-Konstrukt (entspricht 100%) und illustriert die prozentuale Steigerung 
der Gesamtproteinmenge nach Transvektion von synthetischen Expressionskonstrukten ge- 
gentiber Wildtyp-Expressionskonstrukten. HI 299 Zellen wurden mit 15 \xg der angegebe- 
nen Cytokin/Chemokin-Konstrukte transfiziert. Die jeweilige Proteinproduktion wurde 
durch konventionelle ELISA Tests im Zellkulturttberstand und im Zelllysat anhand ent- 
sprechender Standardkurven (siehe Abb. 9) quantifiziert. Das Verhaltnis der Gesampro- 
teintmenge von synthetischem zu wildtyp Protein wurde in jedem Experiment (bestehend 
aus zwei unabhangigen Ansatzen) errechnet und als % Gesamtprotein von wildtyp angege- 
ben. Die Balken reprasentieren den Mittelwert von 4 Experimenten fur das humane GM- 
CSF, von 3 Experimenten fiir humanes IL15 und von 2 Experimenten fur Maus MIP1 alpha 
und GM-CSF, jeweils in unabhangigen Zweifachansatzen. Die Fehlerbalken entsprechen 
den Standardabweichung. 

In Fig. 1 1 ist eine reprasentative ELISA Analyse der Zelllysate und Oberstande transfi- 
zierter HI 299 Zellen fiir das humane GM-CSF dargestellt. HI 299 Zellen wurden mit je- 
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weils 15 ng wildtyp und optimierter humaner GM-CSF Konstrukte transfiziert. Die jewei- 
lige Proteinkonzentration wurde durch konventionelle ELISA Tests im Zeilkulturiiberstand 
und im Zelllysat anhand entsprechender Standardkurven quantifiziert. Die Balken reprS- 
sentieren den Wert der Gesamtproteinmenge im Zelllysat (ZL), im Zeilkulturiiberstand 
(OS) und die Summe aus diesen Werten (Gesamt) fur jeweils 2 unabhangige Ansatze (1 
und 2). 

Diese Analyse zeigt, dass die Expressionszunahme nach Optimierung (hu GM-CSF opt) 
konstant in Zelllysat und Uberstand nachweisbar ist. Zudem verdeutlicht sie exemplarisch, 
dass die Sekretion der Cytokine durch die Optimierung nach diesem Verfahren nicht beein- 
flusst wird. FUr alle optimierten Konstrukte konnte eine deutliche und reproduzierbare Er- 
hehung der Proteinexpression nachgewiesen werden, wobei in jedem einzelnen Experiment 
die Syntheseleistungen der optimierten Gene gegenuber den wildtyp Genen verbessert wa- 
ren. 

Die Expression wurde zusatzlich in Westernblotanalysen uberpruft (Fig. 12 A bis C). Das 
humane und das murine GM-CSF konnten im Zeilkulturiiberstand (nach Na-DOC/TCA- 
Fallung) nachgewiesen werden (Fig. 12 A und B), wahrend das humane IL15 in den Zeliiy- 
saten detektiert werden konnte (Fig. 12C). Die Proteine wurden im Vergleich zu kommer- 
ziell erhaltlichen rekombinanten Proteinen (BD) analysiert und das Molekulargewicht ent- 
sprechend bestatigt. In diesen transienten Transfektionsexperimenten war es nicht moglich 
das murine MlPlalpha durch Immunoblotfarbung nachzuweisen. Der Vergleich der wild- 
typ mit den synthetischen Proteinen in diesen reprasentativen Immunoblots bestatigt die 
Daten der ELISA- Auswertungen einer verbesserten Proteinsynthese durch Multiparameter 
Optimierung dieser Gene. 

Die in den Ansprttchen, den Zeichnungen und der Beschreibung offenbarten Merkmale k6n- 
nen sowohl einzeln als auch in beliebiger Kombination fiir die Verwirklichung der Erfindung 
in ihren verschiedenen Ausfiihrungsformen wesentlich sein. 
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Anhang: SEQ-IDs und Alignments der verwendeten DNA Sequenzen 
SEQ-ID der angegebenen Konstrukte: 

SEQ-ID1 (Mensch GM-CSF witdtyp) : 

1 atgtggctgc agagcctgct gctcttgggc actgtggcct gcagcatctc tgcacccgcc 
61 cgctcgccca gccccagcac gcagccctgg gagcatgtga atgccatcca ggaggcccgg 
121 cgtctcctga acctgagtag agacactgct gctgagatga atgaaacagt agaagtcatc 
181 tcagaaatgt ttgacctcca ggagccgacc tgcctacaga cccgcctgga gctgtacaag 
241 cagggcctgc ggggcagcct caccaagctc aagggcccct tgaccatgat ggccagccac 
301 tacaagcagc actgccctcc aaccccggaa acttcctgtg caacccagat tatcaccttt 
361 gaaagtttca aagagaacct gaaggacttt ctgcttgtca tcccctttga ctgctgggag 
421 ccagtccagg agtag 

SEQ-ID2 (Mensch GM-CSF optimiert) : 

1 atgtggctgc agagcctgct gctgctggga acagtggcct gtagcatctc tgcccctgcc 

61 agaagcccta gccctagcac acagccttgg gagcacgtga atgccatcca ggaggccagg 

121 agactgctga acctgagcag agatacagcc gccgagatga acgagaccgt ggaggtgatc 

181 agcgagatgt tcgacctgca ggagcctaca tgcctgcaga cccggctgga gctgtataag 

241 cagggcctga gaggctctct gaccaagctg aagggccccc tgacaatgat ggccagccac 

301 tacaagcagc actgccctcc tacccctgag acaagctgcg ccacccagat catcaccttc 

361 gagagcttca aggagaacct gaaggacttc ctgctggtga tccccttcga ttgctgggag 

421 cccgtgcagg agtag 

SEQ-ID3 (Mensch IL15 wildtyp) : 

1 atgagaattt cgaaaccaca tttgagaagt atttccatcc agtgctactt gtgtttactt 

61 ctaaacagtc attttctaac tgaagctggc attcatgtct tcattttggg ctgtttcagt 

121 gcagggcttc ctaaaacaga agccaactgg gtgaatgtaa taagtgattt gaaaaaaatt 

181 gaagatctta ttcaatctat gcatattgat gctactttat atacggaaag tgatgttcac 

241 cccagttgca aagtaacagc aatgaagtgc tttctcttgg agttacaagt tatttcactt 

301 gagtccggag atgcaagtat tcatgataca gtagaaaatc tgatcatcct agcaaacaac 

361 agtttgtctt ctaatgggaa tgtaacagaa tctggatgca aagaatgtga ggaactggag 

421 gaaaaaaata ttaaagaatt tttgcagagt tttgtacata ttgtccaaat gttcatcaac 
481 acttcttag 

SEQ-ID4 (Mensch IL15 optimiert) : 

1 atgcggatca gcaagcccca cctgaggagc atcagcatcc agtgctacct gtgcctgctg 
61 ctgaacagcc acttcctgac agaggccggc atccacgtgt ttatcctggg ctgcttctct 
121 gccggcctgc ctaagacaga ggccaactgg gtgaacgtga tcagcgacct gaagaagatc 
181 gaggacctga tccagagcat gcacatcgac gccaccctgt acacagagag cgacgtgcac 
241 cctagctgta aggtgaccgc catgaagtgc ttcctgctgg agctgcaggt gatcagcctg 
301 gagagcggcg atgccagcat ccacgacacc gtggagaacc tgatcatcct ggccaacaac 
361 agcctgagca gcaacggcaa tgtgaccgag agcggctgca aggagtgtga ggagctggag 
4 21 gagaagaaca tcaaggagtt cctgcagagc ttcgtgcaca tcgtgcagat gttcatcaac 
481 accagctag 

SEQ-IDS (Maus GM-CSF wildtyp) : 

1 atgtggctgc agaatttact tttcctgggc attgtggtct acagcctctc agcacccacc 

61 cgctcaccca tcactgtcac ccggccttgg aagcatgtag aggccatcaa agaagccctg 

121 aacctcctgg atgacatgcc tgtcacattg aatgaagagg tagaagtcgt ctctaacgag 

181 ttctccttca agaagctaac atgtgtgcag acccgcctga agatattcga gcagggtcta 

241 cggggcaatt tcaccaaact caagggcgcc ttgaacatga cagccagcta ctaccagaca 

301 tactgccccc caactccgga aacggactgt gaaacacaag ttaccaccta tgcggatttc 

361 atagacagcc ttaaaacctt tctgactgat atcccctttg aatgcaaaaa accaggccaa 
421 aaatag 

SEQ-ID6 (Maus GM-CSF optimiert): 

1 atgtggctgc agaacctgct gttcctgggc atcgtggtgt acagcctgag cgcccccacc 

61 aggagcccca tcaccgtgac caggccctgg aagcacgtgg aggccatcaa ggaggccctg 

121 aacctgctgg acgacatgcc cgtgaccctg aacgaggagg tggaggtggt gagcaacgag 

181 ttcagcttca agaagctgac ctgcgtgcag accaggctga agatcttcga gcagggcctg 
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241 aggggcaact tcaccaagct gaagggcgcc ctgaacatga ccgccagcta ctaccagacc 
301 tactgccccc ccacccccga gaccgactgc gagacccagg tgaccaccta cgccgacttc 
361 atcgacagcc tgaagacctt cctgaccgac atccccttcg agtgcaagaa gcccggccag 
421 aagtag 

SEQ-ID7 (Maus MlPlalpha wildtyp) : r , nrasrcaa 
1 atgaaggtct ccaccactgc ccttgctgtt cttctctgta ccatgacact ctgcaaccaa 
61 gtcttctcag cgccatatgg agctgacacc ccgactgcct gctgcttctc ctacagccgg 
121 aagattccac gccaattcat cgttgactat tttgaaacca gcagcctttg ctcccagcca 
181 ggtgtcattt tcctgactaa gagaaaccgg cagatctgcg ctgactccaa agagacctgg 
241 gtccaagaat acatcactga cctggaactg aatgcctag 

SEQ-ID8 (Maus MlPlalpha optimiert) : 

1 atgaaggtga gcaccacagc tctggctgtg ctgctgtgca ccatgaccct gtgcaaccag 
61 gtgttcagcg ctccttacgg cgccgatacc cctacagcct gctgcttcag ctacagcagg 
121 aagatcccca ggcagttcat cgtggactac ttcgagacca gcagcctgtg ttctcagccc 
181 ggcgtgatct tcctgaccaa gcggaacaga cagatctgcg ccgacagcaa ggagacatgg 
241 gtgcaggagt acatcaccga cctggagctg aacgcctag 
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Alignments der verwendeten DNA Sequenzen 

1. Humanes GM-CSF: 

Obere Zeile: SEQ-ID1 (Mensch GM-CSF witdtyp) , from 1 to 435 
Ontere Zeile: SEQ-ID2 (Mensch GM-CSF optimiert), from 1 to 435 

Wildtyp-.optimiert identity' 83 . 45% (363/435) gap=0 . 00% (0/4 35) 

1 ATGTGGCTGCAGAGCCTGCTGCTCTTGGGCACTGTGGCCTGCAGCATCTCTGCACCCGCC 

| | | | | | | | | | I I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I I I I I I I II IN 
1 ATGTGGCTGCAGAGCCTGCTGCTGCTGGGAACAGTGGCCTGTAGCATCTCTGCCCCTGCC 



61 
61 
121 
121 
181 



CGCTCGCCCAGCCCCAGCACGCAGCCCTGGGAGCATGTGAATGCCATCCAGGAGGCCCGG 

| U | | | | | | | | | | I I I I I I I I I I I I I I I I I II 

AGAAGCCCTAGCCCTAGCACACAGCCTTGGGAGCACGTGAATGCCATCCAGGAGGCCAGG 

CGTCTCCTGAACCTGAGTAGAGACACTGCTGCTGAGATGAATGAAACAGTAGAAGTCATC 

i M 1 1 1 1 1 1 1 1 1 1 1 inn ii ii n immi ii ii ii ii ii in 

AGACTGCTGAACCTGAGCAGAGATACAGCCGCCGAGATGAACGAGACCGTGGAGGTGATC 



TCAGAAATGTTTGACCTCCAGGAGCCGACCTGCCTACAGACCCGCCTGGAGCTGTACAAG 

|| Mill III II II Mill MINIM I I I I 

181 AGCGAGATGTTCGACCTGCAGGAGCCTACATGCCTGCAGACCCGGCTGGAGCTGTATAAG 

241 CAGGGCCTGCGGGGCAGCCTCACCAAGCTCAAGGGCCCCTTGACCATGATGGCCAGCCAC 

|| | | || I I I I Ml H I I I I I I I I I I I I I I I I I M 

241 CAGGGCCTGAGAGGCTCTCTGACCAAGCTGAAGGGCCCCCTGACAATGATGGCCAGCCAC 

301 TACAAGCAGCACTGCCCTCCAACCCCGGAAACTTCCTGTGCAACCCAGATTATCACCTTT 

M I I M I I I I I I I I I I I I I I I I I I I 1 11 ''Mill I I I 

301 TACAAGCAGCACTGCCCTCCTACCCCTGAGACAAGCTGCGCCACCCAGATCATCACCTTC 

361 GAAAGTTTCAAAGAGAACCTGAAGGACTTTCTGCTTGTCATCCCCTTTGACTGCTGGGAG 

11 II I II II II II II 1 1 1 1 1 1 1 1 1 1 1 I I 1 1 I II I I II I II I II 1 1 1 1 1 1 1 1 1 

361 GAGAGCTTCAAGGAGAACCTGAAGGACTTCCTGCTGGTGATCCCCTTCGATTGCTGGGAG 

4 21 CCAGTCCAGGAGTAG 
II II I I I I I I I I I 
421 CCCGTGCAGGAGTAG 
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2. Humanes IL15: 

Obere Zeile: SEQ-ID3 (Mensch IL15 wildtyp) , from 1 to 489 
Untere Zeile: SEQ-ID4 (Mensch IL15 optimiert) , from 1 to 489 

Wildtyp: optimiert identity- 70. 55% (345/489) gap=0 . 00% (0/489) 

1 ATGAGAATTTCGAAACCACATTTGAGAAGTATTTCCATCCAGTGCTACTTGTGTTTACTT 

ill i ii unit iiii ii ii 1 1 1 1 1 1 1 m 1 1 1 1 n n in 

1 ATGCGGATCAGCAAGCCCCACCTGAGGAGCATCAGCATCCAGTGCTACCTGTGCCTGCTG 

61 CTAAACAGTCATTTTCTAACTGAAGCTGGCATTCATGTCTTCATTTTGGGCTGTTTCAGT 

|| || II II II II I M I I II I I I I I I HI I 

61 CTGAACAGCCACTTCCTGACAGAGGCCGGCATCCACGTGTTTATCCTGGGCTGCTTCTCT 

121 GCAGGGCTTCCTAAAACAGAAGCCAACTGGGTGAATGTAATAAGTGATTTGAAAAAAATT 

| IIII I I I I I I I I I I I I I I I I II II ''I' H 1 * 

121 GCCGGCCTGCCTAAGACAGAGGCCAACTGGGTGAACGTGATCAGCGACCTGAAGAAGATC 

181 GAAGATCTTATTCAATCTATGCATATTGATGCTACTTTATATACGGAAAGTGATGTTCAC 

| | I | | | | I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 

181 GAGGACCTGATCCAGAGCATGCACATCGACGCCACCCTGTACACAGAGAGCGACGTGCAC 

241 CCCAGTTGCAAAGTAACAGCAATGAAGTGCTTTCTCTTGGAGTTACAAGTTATTTCACTT 

|| || || || II II II I I I I I I I I I I I II I I I I I I I I I I I I M 
241 CCTAGCTGTAAGGTGACCGCCATGAAGTGCTTCCTGCTGGAGCTGCAGGTGATCAGCCTG 

301 GAGTCCGGAGATGCAAGTATTCATGATACAGTAGAAAATCTGATCATCCTAGCAAACAAC 

Ml Ml | I I | I I I I I I I I I I I I M I I I M I 

301 GAGAGCGGCGATGCCAGCATCCACGACACCGTGGAGAACCTGATCATCCTGGCCAACAAC 

361 AGTTTGTCTTCTAATGGGAATGTAACAGAATCTGGATGCAAAGAATGTGAGGAACTGGAG 

|| || | I I I I I I I I I I I I I I I I I I I I I I I I 

361 AGCCTGAGCAGCAACGGCAATGTGACCGAGAGCGGCTGCAAGGAGTGTGAGGAGCTGG AG 

421 GAAAAAAATATTAAAGAATTTTTGCAGAGTTTTGTACATATTGTCCAAATGTTCATCAAC 

|| || || || || II II I I I I I I I H M M 'I 

4 21 GAGAAGAACATCAAGGAGTTCCTGCAGAGCTTCGTGCACATCGTGCAGATGTTCATCAAC 

4 81 ACTTCTTAG 
II III 
481 ACCAGCTAG 
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3. Maus GM-CSF: 

Obere Zeile: SEQ-ID5 (Maus GM-CSF wildtyp) , from 1 to 426 
Untere Zeile: SEQ-ID6 (Maus GM-CSF optimiert) , from 1 to 426 

Wildtyp:optimiert identity- 80 . 75% (344/426) gap=0 . 00% (0/426) 

1 ATGTGGCTGCAGAATTTACTTTTCCTGGGCATTGTGGTCTACAGCCTCTCAGCACCCACC 

| | | | | | | I I I I I I I I I I I I I I I I I I I HI I HI II IN 

1 ATGTGGCTGCAGAACCTGCTGTTCCTGGGCATCGTGGTGTACAGCCTGAGCGCCCCCACC 

CGCTCACCCATCACTGTCACCCGGCCTTGGAAGCATGTAGAGGCCATCAAAGAAGCCCTG 

| | | I | I I I I II I I I I I I I I II I I I I I I I I I I I M I I II I I 

AGGAGCCCCATCACCGTGACCAGGCCCTGGAAGCACGTGGAGGCCATCAAGGAGGCCCTG 



61 
61 
121 



AACCTCCTGGATGACATGCCTGTCACATTGAATGAAGAGGTAGAAGTCGTCTCTAACGAG 

| | | | | | | | | I I I I I I I I I II M I Mill I I N N I I I I I I 

121 AACCTGCTGGACGACATGCCCGTGACCCTGAACGAGGAGGTGGAGGTGGTGAGCAACGAG 

TTCTCCTTCAAGAAGCTAACATGTGTGCAGACCCGCCTGAAGATATTCGAGCAGGGTCTA 

Ml | | | | | | | | I | I I II II I I I I I I I I I I I I I I I I I I I I I I I I I I I I I II 
TTCAGCTTCAAGAAGCTGACCTGCGTGCAGACCAGGCTGAAGATCTTCGAGCAGGGCCTG 

CGGGGCAATTTCACCAAACTCAAGGGCGCCTTGAACATGACAGCCAGCTACTACCAGACA 

iiiii ii i inn it ii it i ii mi i mi mi i ii nnnnin in I 

AGGGGCAACTTCACCAAGCTGAAGGGCGCCCTGAACATGACCGCCAGCTACTACCAGACC 

TACTGCCCCCCAACTCCGGAAACGGACTGTGAAACACAAGTTACCACCTATGCGGATTTC 

| | || || I I I I I II II II II III I I II II II II I I I I I II I II II III 
TACTGCCCCCCCACCCCCGAGACCGACTGCGAGACCCAGGTGACCACCTACGCCGACTTC 

ATAGACAGCCTTAAAACCTTTCTGACTGATATCCCCTTTGAATGCAAAAAACCAGGCCAA 

M II I I I I M M M I I I I I I II II II II I I I I I II M Mill 

ATCGACAGCCTGAAGACCTTCCTGACCGACATCCCCTTCGAGTGCAAGAAGCCCGGCCAG 



181 

181 

241 

241 

301 

301 

361 

361 



421 AAATAG 
M Ml 
421 AAGTAG 
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4. Maus MIP1 alpha 

Obere Zeile: SEQ-ID7 (Maus MlPlalpha wildtyp) , from 1 to 279 
Untere Zeile: SEQ-ID8 (Maus MlPlalpha optimiert) , from 1 to 279 

Wildtyp :optimiert identity- 78 . 49% (219/279) gap=0 . 00% (0/279) 

1 ATGAAGGTCTCCACCACTGCCCTTGCTGTTCTTCTCTGTACCATGACACTCTGCAACCAA 

| | | | | | | I | | | | | | 11 II MM) I 1 1 I II 111 I I I I I II I I I I I I I I 
1 ATGAAGGTGAGCACCACAGCTCTGGCTGTGCTGCTGTGCACCATGACCCTGTGCAACCAG 

61 GTCTTCTCAGCGCCATATGGAGCTGACACCCCGACTGCCTGCTGCTTCTCCTACAGCCGG 

Mill I I I I I I II I I I I I I I I I I I I I I I I I I I i I I I I I 

61 GTGTTCAGCGCTCCTTACGGCGCCGATACCCCTACAGCCTGCTGCTTCAGCTACAGCAGG 

121 AAGATTCCACGCCAATTCATCGTTGACTATTTTGAAACCAGCAGCCTTTGCTCCCAGCCA 

M M I I I I I I II I I I I I II M MINIMI! Mill 

121 AAGATCCCCAGGCAGTTCATCGTGGACTACTTCGAGACCAGCAGCCTGTGTTCTCAGCCC 

181 GGTGTCATTTTCCTGACTAAGAGAAACCGGCAGATCTGCGCTGACTCCAAAGAGACCTGG 

II i| M M M M I I III I Ml I II I M II I I I I Ml III Ml 

181 GGCGTGATCTTCCTGACCAAGCGGAACAGACAGATCTGCGCCGACAGCAAGGAGACATGG 

241 GTCCAAGAATACATCACTGACCTGGAACTGAATGCCTAG 
|| || II I I II II II II I M I II Mill I M I M 
241 GTGCAGGAGTACATCACCGACCTGGAGCTGAACGCCTAG 
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Anspruche 

1. Verfahren zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins auf 
der Grundlage der Aminosaurensequenz des Proteins, welches die folgenden auf ei- 
nem Computer durchgefUhrten Schritte umfafit: 

Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfol- 
genden Aminosauren in der Proteinsequenz entsprechen, wobei n eine naturli- 
che Zahl und kleiner oder gleich N, der Zahl der Aminosauren der Proteinse- 
quenz, ist, 

Festlegen von m Optimierungspositionen in der Testsequenz, welche der Posi- 
tion von m Codons entsprechen, an denen die Besetzung mit einem Codon, be- 
zogen auf die Testsequenz, optimiert werden soil, wobei m < n und m < N ist, 
Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testse- 
quenz, indem an einer oder mehreren der m Optimierungspositionen ein Codon 
der ersten Testsequenz durch ein anderes Codon ersetzt wird, welches dieselbe 
Aminosaure exprimiert, 

Bewerten jeder der Testsequenzen mit einer Giltefunktion und Ermitteln der 
hinsichtlich der Giitefunktion optimalen Testsequenz, 

Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m 
Optimierungspositionen befinden, als Ergebniscodons, welche die Codons der 
optimierten Nucleotidsequenz an den Positionen bilden, die der Position der 
besagten p Codons in der Testsequenz entspricht, wobei p eine naturliche Zahl 
und p < m ist, 

Iterieren der vorangehenden Schritte, wobei in jedem Iterationsschritt die Test- 
sequenz an den Positionen, welche Positionen von festgelegten Ergebniscodons 
in der optimierten Nucleotidsequenz entsprechen, das entsprechende Ergeb- 
niscodon enthait und die Optimierungspositionen von Positionen von Ergeb- 
niscodons verschieden sind. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB in einem oder mehreren 
Iterationsschritten die m Optimierungspositionen der Testsequenzen unmittelbar auf 
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ein oder mehrere Ergebniscodons folgen, welche als Teil der optimierten Nucleotidse- 
quenz festgelegt worden sind. 

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daB in einem oder mehre- 
ren Iterationsschritten die p Codons, die als Ergebniscodons der optimierten Nucleo- 
tidsequenz festgelegt werden, p aufeinanderfolgende Codons sind. 

4. Verfahren nach einem der Anspriiche 1 bis 3, dadurch gekennzeichnet, daB in einem 
Iterationsschritt Testsequenzen mit alien moglichen Codonbesetzungen fur die m Op- 
timierungspositionen aus der ersten Testsequenz generiert werden und die optimale 
Testsequenz unter diesen Testsequenzen ermittelt wird. 

5. Verfahren nach einem der Anspriiche 1 bis 4, gekennzeichnet durch: 

Bewerten jeder Testsequenz mit einer Gutefunktion, 

Ermitteln eines Extremwertes innerhalb der Werte der Gutefunktion fur alle in 
einem Iterationsschritt generierten Teilsequenzen* 

Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der 
Gewichtsflxnktion entspricht, als Ergebniscodons an den entsprechenden Posi- 
tioned wobei p eine natflrliche Zahl und p < m ist. 

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daB die Gutefunktion eines oder 
mehrere der folgenden Kriterien beriicksichtigt: 

Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, repetitive Sequenzen, 
Sekundarstrukturen, invers komplementare Sequenzwiederholungen und Sequenzmo- 
tive. 

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daB die Gutefunktion eine 
Funktion von verschiedenen Einzeltermen ist, die jeweils ein Kxiterium aus der fol- 
genden Liste von Kriterien bewerten: 

Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repeti- 
tive Sequenzen, Sekundarstrukturen, invers komplementare Sequenzwiederholungen. 

8. Verfahren nach einem der Anspriiche 1 bis 6, dadurch gekennzeichnet, dafi die Gute- 
funktion eines oder mehrere der folgenden Kriterien beriicksichtigt: 
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Ausschlufl von invers komplementaren Sequenzidentitaten von mehr als 20 
Nucleotiden zum Transkriptom eines vorgegebenen Organismus, 
Ausschlufl von Homologiebereichen von mehr als 100 Basenpaaren zu einer 
vorgegebenen DNS-Sequenz, 

Ausschlufl von Homologiebereichen mit mehr als 90 % Ahnlichkeit der 
Nucleotidsequenz zu einer vorgegebenen DNS-Sequenz. 

9. Verfahren nach einem der Anspruche 1 bis 8, gekennzeichnet durch den Schritt des 
Synthetisierens der optimierten Nucleotidsequenz. 

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dafl der Schritt des Synthetisie- 
rens der optimierten Nucleotidsequenz in einer Vorrichtung zum automatischen Syn- 
thetisieren von Nucleotidsequenzen stattfindet, welcher von dem Rechner angesteuert 
wird, der die Nucleotidsequenz optimiert. 

11. Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins 
auf der Grundlage der Aminosaurensequenz des Proteins, welche eine Recheneinrich- 
tung aufweist, welche umfaflt: 

eine Einrichtung zum Generieren einer ersten Testsequenz von n Codons, wel- 
che n aufeinanderfolgenden Aminosauren in der Proteinsequenz entsprechen, 
wobei n eine naturliche Zahl und kleiner oder gleich N, der Zahl der Ami- 
nosauren der Proteinsequenz ist, 

eine Einrichtung zum Festlegen von m Optimierungspositionen in der Testse- 
quenz, welche der Position von m Codons entsprechen, an denen die Besetzung 
mit einem Codon, bezogen auf die Testsequenz, optimiert werden soil, wobei 
m < n und m < M ist, 

eine Einrichtung zum Generieren einer oder mehrerer weiterer Testsequenzen 
aus der ersten Testsequenz, indem an einer oder mehreren der m Optimie- 
rungspositionen ein Codon der ersten Testsequenz durch ein anderes Codon er- 
setzt wird, welches dieselbe Aminosaure exprimiert, 

eine Einrichtung zum Bewerten jeder der Testsequenzen mit einer Gutefunkti- 
on und zum Ermitteln der hinsichtlich der Giitefunktion optimalen Testse- 
quenz, 



WO 2004/059556 



PCT/EP2003/014850 



eine Einrichtung zum Festlegen von p Codons der optimalen Testsequenz, wel- 
che sich an einem der m Optimierungspositionen befmden, als Ergebniscodons, 
welche die Codons der optimierten Nucleotidsequenz an den Positionen bilden, 
die den Positionen der besagten p Codons in der Testsequenz entsprechen, wo- 
bei p eine naturliche Zahl und p < m ist, 

eine Einrichtung zum Iterieren der Schritte des Generierens mehrerer Test- 
funktionen, der Bewertung der Testsequenzen und des Festlegens von Ergeb- 
niscodons, wobei in jedem Iterationsschritt die Testsequenz an den Positionen, 
welche Positionen von festgelegten Ergebniscodons in der optimierten 
Nucleotidsequenz entsprechen, das entsprechende Ergebniscodon enthalt und 
die Optimierungspositionen von Positionen von Ergebniscodons verschieden 
sind. 

12. Vorrichtung nach Anspruch 11, gekennzeichnet durch eine Einrichtung zum Durch- 
fuhren der Schritte eines Verfahrens nach einem der Anspruche 1 bis 7. 

13. Vorrichtung nach einem der Anspriiche 11 oder 12, gekennzeichnet durch eine Vor- 
richtung zum automatischen Synthetisieren von Nucleotidsequenzen, welcher von dem 
Rechner so angesteuert wird, daB er die optimierte Nucleotidsequenz synthetisiert. 

14. Computerprogramm, welches von einem Computer ausfuhrbaren Programmcode ent- 
halt, der, wenn er auf einem Computer ausgefuhrt wird, den Computer veranlaflt, ein 
Verfahren nach einem der Anspriiche 1 bis 8 durchzuflihren. 

15. Computerprogramm nach Anspruch 14, wobei der Programmcode, wenn er auf einem 
Computer ausgefuhrt wird, eine Vorrichtung zum automatischen Synthetisieren von 
Nucleotidsequenzen veranlassen kann, die optimierte Nucleotidsequenz herzustellen. 

16. Computerlesbarer Datentrager, auf welchem in computerlesbarer Form ein Programm 
nach einem der Anspruche 14 oder 15 gespeichert ist. 

17. Nukleinsaure, welche eine fur ein Protein codierende Nucleotidsequenz umfaBt, er- 
haltlich durch ein Verfahren nach Anspruch 9. 
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Nukleinsaure nach Anspruch 17, dadurch gekennzeichnet, daB diese eine Nucleotidse- 
quenz umfaBt, welche in einem vorgegebenen Organismus fur ein Protein codiert, wo- 
bei die besagte Nucleotidsequenz in dem naturlich vorkommenden Genom des Orga- 
nismus nicht enthalten ist. 

Nukleinsaure nach Anspruch 18, dadurch gekennzeichnet, daB der Organismus ausge- 
wahlt aus der folgenden Gruppe ist: 

Viren, insbesondere Vaccinia-Viren, 

Prokaryonten, insbesondere Escherichia coli, Caulobacter cresentus, Bacillus 
subtilis, Mycobacterium spec, 

Hefen, insbesondere Saccharomyces cerevisiae, Schizosaccharomyces pombe, 
Pichia pastoris, Pichia angusta, 

Insekten, insbesondere Sprodoptera frugiperda, Drosophila spec, 
Sauger, insbesondere Homo sapiens, Macaca mulata, Mus musculus, Bos tau- 
rus, Capra hircus, Ovis aries, Oryctolagus cuniculus, Rattus norvegicus, Chine- 
se hamster ovary, 

Monokotyle Pflanzen, insbesondere Oryza sativa, Zea mays, Triticum aestivum 
Dikotyle Pflanzen, insbesondere Glycin max, Gossypium hirsutum, Nicotiana 
tabacum, Arabidopsis thaliana, Solanum tuberosum. 

Nukleinsaure nach einem der Anspriiche 1 bis 19, dadurch gekennzeichnet, daB das 
durch die Nucleotidsequenz codierte Protein eines der folgenden Proteine ist und/oder 
in einer der folgenden Proteinklassen failt: 

Enzyme, insbesondere Polymerasen, Endonukleasen, Ligasen, Lipasen, Protea- 

sen, Kinasen, Phosphatasen, Topoisomerasen, 

Cytokine, Chemokine, Transkriptionsfaktoren, Oncogene, 

Proteine aus thermophilen Organismen, aus cryophilen Organismen, aus halo- 

philen Organismen, aus acidophilen Organismen, aus basophilen Organismen, 

Proteine mit repetitiven Sequenzelementen, insbesondere strukturgebende 
Proteine, 

Humane Antigene, insbesondere Tumorantigene, Tumormarker, Autoim- 
munantigene, diagnostische Marker, 

Virale Antigene, insbesondere von HAV, HBV, HCV, HIV, SIV, FIV, HPV, 
Rinoviren, Influenzaviren, Herpesviren, Poliomaviren, Hendra Virus, Dengue 



WO 2004/059556 



65 



PCT/EP2003/014850 



Virus, AAV, Adenoviren, HTLV, RSV, 

Antigene von parasitaren Erregern, z.B. Protozoen, insbesondere Erreger von 
Malaria, Leishmania, Trypanosoma, Toxoplasmen, Am6ba, 
Antigene von bakteriellen Erregern oder Pathogene, insbesondere von den Ge- 
nera Chlamydia, Staphylococcen, Klebsiella, Streptococcus, Salmonella, Liste- 
ria, Borrelia, Escherichia coli, 

Antigene von Organismen der Sicherheitstufe L4, insbesondere Bacillus an- 
thracis, Ebola- Virus, Marburg- Virus, Pockenviren. 

2 1 . Nukleinsaure nach einem der Anspriiche 1 8 oder 1 9, dadurch gekennzeichnet, daB die 
Gutefunktion zumindest eines der folgenden Kriterien beriicksichtigt: 
GC-Gehalt, 

Codon Usage des vorgegebenen Organismus, 

AusschluB von invers komplementaren Sequenzidentitaten von mehr als 20 
Nucleotiden zum Transkriptom eines vorgegebenen Organismus, 
vollstandiger oder weitgehender AusschluB von Homologiebereichen von mehr 
als 100 Basenpaaren zu einer vorgegebenen DNS-Sequenz, 
vollstandiger oder weitgehender AusschluB von Homologiebereichen mit einer 
Ahnlichkeit von mehr als 90 % zu einer vorgegebenen DNS-Sequenz. 

22. Vektor, umfassend eine Nukleinsaure nach einem der Anspriiche 1 7 bis 2 1 . 

23. Zelle, umfassend einen Vektor nach Anspruch 22 oder eine Nukleinsaure nach einem 
der Anspriiche 17 bis 21. 

24. Organismus, umfassend mindestens eine Zelle nach Anspruch 23. 

25. Nukleinsaure, insbesondere nach Anspruch 9, umfassend eine Nucleotidsequenz, die 
ausgewahlt ist aus der Gruppe, umfassend: SEQ ID NO: 2, 4, 6, 8. 

26. Vektor, umfassend eine Nukleinsaure nach Anspruch 25. 

27. Zelle, umfassend einen Vektor nach Anspruch 26 oder eine Nukleinsaure nach An- 
spruch 25. 



WO 2004/059556 PCT7EP2003/0 14850 

66 



Organismus, umfassend mindestens eine Zelle nach Anspruch 27. 
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SEQUENCE LISTING 

<110> GeneArt GmbH 

<120> Verfahren unci Vorrichtung zum Optimieren einer Nucleotidsequenz 
zur Expression eines Proteins 

<130> G30036PCT 

<160> 8 

<170> Patentln version 3.2 

<210> 1 

<211> 435 

<212> DNA 

<213> Homo sapiens 



<400> 1 
atgtggctgc 


agagcctgct 


gctcttgggc 


actgtggcct 


gcagcatctc 


tgcacccgcc 


60 


cgctcgccca 


gccccagcac 


gcagccctgg 


gagcatgtga 


atgccatcca 


ggaggcccgg 


120 


cgtctcctga 


acctgagtag 


agacactgct 


gctgagatga 


atgaaacagt 


agaagtcatc 


180 


tcagaaatgt 


ttgacctcca 


ggagccgacc 


tgcctacaga 


cccgcctgga 


gctgtacaag 


240 


cagggcctgc 


ggggcagcct 


caccaagctc 


aagggcccct 


tgaccatgat 


ggccagccac 


300 


tacaagcagc 


actgccctcc 


aaccccggaa 


acttcctgtg 


caacccagat 


tatcaccttt 


360 


gaaagtttca 


aagagaacct 


gaaggacttt 


ctgcttgtca 


tcccctttga 


ctgctgggag 


420 


ccagtccagg 


agtag 










435 


<210> 2 

<211> 435 

<212> DNA 

<213> Homo sapiens 












<400> 2 
atgtggctgc 


agagcctgct 


gctgctggga 


acagtggcct 


gtagcatctc 


tgcccctgcc 


60 


agaagcccta 


gccctagcac 


acagccttgg 


gagcacgtga 


atgccatcca 


ggaggccagg 


120 


agactgctga 


acctgagcag 


agatacagcc 


gccgagatga 


acgagaccgt 


ggaggtgatc 


180 


agcgagatgt 


tcgacctgca 


ggagcctaca 


tgcctgcaga 


cccggctgga 


gctgtataag 


240 


cagggcctga 


gaggctctct 


gaccaagctg 


aagggccccc 


tgacaatgat 


ggccagccac 


300 


tacaagcagc 


actgccctcc 


tacccctgag 


acaagctgcg 


ccacccagat 


catcaccttc 


360 


gagagcttca 


aggagaacct 


gaaggacttc 


ctgctggtga 


tccccttcga 


ttgctgggag 


420 


cccgtgcagg 


agtag 










435 



<210> 3 

<211> 489 

<212> DNA 

<213> Homo sapiens 
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<400> 3 

atgagaattt cgaaaccaca tttgagaagt atttccatcc agtgctactt gtgtttactt 



60 



ctaaacagtc attttctaac tgaagctggc attcatgtct tcattttggg ctgtttcagt 



120 



gcagggcttc ctaaaacaga agccaactgg gtgaatgtaa taagtgattt gaaaaaaatt 



180 



gaagatctta ttcaatctat gcatattgat gctactttat atacggaaag tgatgttcac 



240 



cccagttgca aagtaacagc aatgaagtgc tttctcttgg agttacaagt tatttcactt 



300 



gagtccggag atgcaagtat tcatgataca gtagaaaatc tgatcatcct agcaaacaac 



360 



agtttgtctt ctaatgggaa tgtaacagaa tctggatgca aagaatgtga ggaactggag 



420 



gaaaaaaata ttaaagaatt tttgcagagt tttgtacata ttgtccaaat gttcatcaac 



480 



acttcttag 



489 



<210> 4 

<211> 489 

<212> DNA 

<213> Homo sapiens 

<400> 4 

atgcggatca gcaagcccca cctgaggagc atcagcatcc agtgctacct gtgcctgctg 60 

ctgaacagcc acttcctgac agaggccggc atccacgtgt ttatcctggg ctgcttctct 120 

gccggcctgc ctaagacaga ggccaactgg gtgaacgtga tcagcgacct gaagaagatc 180 

gaggacctga tccagagcat gcacatcgac gccaccctgt acacagagag cgacgtgcac 240 

cctagctgta aggtgaccgc catgaagtgc ttcctgctgg agctgcaggt gatcagcctg 300 

gagagcggcg atgccagcat ccacgacacc gtggagaacc tgatcatcct ggccaacaac 360 

agcctgagca gcaacggcaa tgtgaccgag agcggctgca aggagtgtga ggagctggag 4 20 

gagaagaaca tcaaggagtt cctgcagagc ttcgtgcaca tcgtgcagat gttcatcaac 480 

accagctag 489 

<210> 5 

<211> 426 

<212> DNA 

<213> Mus musculus 

<400> 5 

atgtggctgc agaatttact tttcctgggc attgtggtct acagcctctc agcacccacc 60 

cgctcaccca tcactgtcac ccggccttgg aagcatgtag aggccatcaa agaagccctg 120 

aacctcctgg atgacatgcc tgtcacattg aatgaagagg tagaagtcgt ctctaacgag 180 

ttctccttca agaagctaac atgtgtgcag acccgcctga agatattcga gcagggtcta 240 

cggggcaatt tcaccaaact caagggcgcc ttgaacatga cagccagcta ctaccagaca 300 

tactgccccc caactccgga aacggactgt gaaacacaag ttaccaccta tgcggatttc 360 
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atagacagcc ttaaaacctt tctgactgat atcccctttg aatgcaaaaa accaggccaa 420 



aaatag 426 

<210> 6 

<211> 426 

<212> DNA 

<213> Mus musculus 

<400> 6 

atgtggctgc agaacctgct gttcctgggc atcgtggtgt acagcctgag cgcccccacc 60 

aggagcccca tcaccgtgac caggccctgg aagcacgtgg aggccatcaa ggaggccctg 120 

aacctgctgg acgacatgcc cgtgaccctg aacgaggagg tggaggtggt gagcaacgag 180 

ttcagcttca agaagctgac ctgcgtgcag accaggctga agatcttcga gcagggcctg 240 

aggggcaact tcaccaagct gaagggcgcc ctgaacatga ccgccagcta ctaccagacc 300 

tactgccccc ccacccccga gaccgactgc gagacccagg tgaccaccta cgccgacttc 360 

atcgacagcc tgaagacctt cctgaccgac atccccttcg agtgcaagaa gcccggccag 420 

aagtag 426 

<210> 7 

<211> 279 

<212> DNA 

<213> Mus musculus 

<400> 7 

atgaaggtct ccaccactgc ccttgctgtt cttctctgta ccatgacact ctgcaaccaa 60 

gtcttctcag cgccatatgg agctgacacc ccgactgcct gctgcttctc ctacagccgg 120 

aagattccac gccaattcat cgttgactat tttgaaacca gcagcctttg ctcccagcca 180 

ggtgtcattt tcctgactaa gagaaaccgg cagatctgcg ctgactccaa agagacctgg 240 

gtccaagaat acatcactga cctggaactg aatgcctag 279 

<210> 8 

<211> 279 

<212> DNA 

<213> Mus musculus 

<400> 8 

atgaaggtga gcaccacagc tctggctgtg ctgctgtgca ccatgaccct gtgcaaccag 60 

gtgttcagcg ctccttacgg cgccgatacc cctacagcct gctgcttcag ctacagcagg 120 

aagatcccca ggcagttcat cgtggactac ttcgagacca gcagcctgtg ttctcagccc 180 

ggcgtgatct tcctgaccaa gcggaacaga cagatctgcg ccgacagcaa ggagacatgg 24 0 

gtgcaggagt acatcaccga cctggagctg aacgcctag 279 



